admin 管理员组文章数量: 1086019
2024年6月16日发(作者:git分支和svn分支)
第19卷
第5期
电子设计工程 2011年3月
Vo1.19
No.5 Electronic Design Engineering
Mar.2011
基于Web数据挖掘的高校教育资源服务平台
王春霞
(商丘师范学院计算机系,河南商丘476000)
摘要:本文根据Web数据流的动态性、连续性和实效性的特点,分析和挖掘不同类型的数据,成立样本库,将分类后
的数据用相应的流算法进行处理,构建Web数据流高校资源服务平台。高校资源服务平台分为用户应用服务层、数据资源
挖掘层、数据库提供层,通过自下而上数据的分析处理,实现高校资源应用资源服务,提高高校网络资源的有效利用。
关键词:数据挖掘;数据流;资源整合:资源服务平台
中图分类号:rrP317 文献标识码:A 文章编号:1674—6236(20l1)05—0088_03
Resource service system based on Web data stream mining
WANG Chun—xia
(Department ofComputer,Shangqiu Normal College,Shangqiu 476000,China)
Abstract:According to the characteristics of Web data stream which iS dynamic,continuous and effective,this article
analyzes and provides insight of different types of data to set up the sample database and build the university’s resources
service platform of Web data stream which includes three layers-user-applying layer,data resources-excavated layer and
database-provider layer by the way of processing classiifed data according to corresponding algorithms.In this ease,the
bottom—up data can be analyzed and processed in the platform,thus realizing university’s applied resources service and
enhancing the efifciency of the use of university’S internet resources.
Key words:data mining;data stream;resource integration;resource services platform
Web数据库是一个巨大的数据源.针对大量的数据资 业等多层次进行数据资源的深层动态获取,如果能够建立一
源,如果不充分利用,造成大量数据资源的泛滥和浪费。尤其 种有效的资源整合机制.就可通过专门的技术和结构把原本
是对于高校来说,充分利用现有的网络高校教育资源.为教 分散、独立的各类型教育资源整合在一起,实现大量数据资
师、学生提供丰富的资源库,能给高等教育带来巨大的有益 源的整合,解决了资源异构和资源孤岛;很大程度上方便各
于教学资源宝贵财富,能有效提高教育、教学质量,拓宽、拓
种类型科研信息、教学信息资源的检索和搜集。
广教学层次,开拓教师、学生思想,使教育教学的综合素质教
高校教育资源服务平台是根据不同用户的数据需求,通
育得到发展。因此,面向高等教育开发高校教育资源,实现资
过对大量教育资源进行分类、加工、整理、分析和研究,实现
源整合的服务研究是至关重要的。通过高等教育的Web教
异构教育资源的一体化、共享化、个体化,体现教育资源服务
育资源平台实现资源整合的服务研究.主要包括数据挖掘、资 的集成。高校教育资源服务平台就是在原来网站的基础上,
源整合、资源决策、资源服务等一系列服务的研究和开发。
利用用户访问资源的情况,进行大量静态数据、单条或多条
1开发高校教育资源平台的必要性
数流进行挖掘[2-31,构建基于Web数据教育资源服务平台,开
发有益于师生访问的教育资源服务平台。综合Web数据特
信息资源整合『1_是指将某一范围内的,原本离散的、多元
点及特殊性,如在短时间内有大量数据连续到达,时间动态
的、异构的、分布的信息资源通过逻辑的或物理的方式组织
变化.快速变化和潜在无限的数据等情况,将Web数据挖掘
为一个整体,使之有利于管理、利用和服务;或是指在网络环
技术应用到高校资源建设的网站中。
境下,采用数字化信息处理和集成整合技术,对多种来源的
数字化信息资源有目的地进行重新组合的过程。同时为用户
2高校资源服务平台的框架设计
提供统一的检索界面.实现高效传播信息的一种服务方式。
高校资源服务平台分为用户应用服务层、数据资源挖掘
高校的教育资源整合,关键要考虑跨学校、跨知识、跨专
层、数据提供层,上层是用户应用服务层,是用户界面,用于
实现同用户交互,为用户提供应用服务;中间是数据资源挖
收稿日期:2010—11-11 稿件编号:201011033
基金项目:河南省科技厅基础与前沿技术研究计划资助项目(102300410244);河南省教育厅自然科学研究计划资助项目
(2011A520034);商丘师范学院骨干教师资助项目(2008)
作者简介:王春霞(1975一),女,河南沈丘人,副教授。研究方向:数据挖掘、数据流等。
-
88-
王春霞 基于Web数据挖掘的高校教育资源服务平台
掘层,主要实现数据处理,分三个子模块,可处理离线数据、
在线数据;底层是数据库提供层即数据库及其他数据来源;
通过自下而上数据的分析处理,实现高校资源应用资源服
用户访问的资源.根据Cookie分析用户,跟踪用户,了解用
户.将用户经常访问的资源进行相似度分析,对于类似的用
户.可以进行同类资源的分配。通过用户的注册情况,可以给
务。其平台框架设计如图1所示。
I ’ .
原始链接平台 l I 重建链接平台 响应 ● 用户应用服务,
: ;:
用户服务平台 IJ’ (用户)\
—
一/
±决策
(二 至至三 数据资源挖掘层
多源数据整合/处理/存储/管理数据库
{
数据挖掘算法库;聚类/分类/关联等
数据库挖掘技术:滑动窗口/衰减因子
i
I离线数据处理模块f I在线数据处理模块l
异构数据库 I 点击数据流 l 数据提供层
图1资源服务平台框架设计
Fig.】Resource services platform framework
1)数据提供层数据资源信息比较丰富,可以搜集各类
信息,比如:学术、教育、教学资源等,建立概要数据库,主要
从以下两个方面实现。
①离线数据处理:离线数据是数据流中的样本,是用户
访问的各种数据库资源。各种异构数据库资源可以从集可以
从服务器端数据收集、客户端数据收集、代理服务器端数据
收集。收集用户访问的日志,收集用户访问多个网站的行为
日志。然后利用数据挖掘的预处理方法清除不需要的数据.
用聚类、分类等算法对处理之后的数据进行模式分析.成立
样本数据库为数据流挖掘分析作准备。
②在线数据处理:由于数据流的动态性.数据流量大的
特点,在实现数据流挖掘时,对数据流入的所有高校教育资
源点击的数据流,力求做到占用内存很少,处理速度要快,在
有限的内存中实现关联规则、分类和聚类的挖掘
2)数据资源挖掘层 主要从用户和数据两方面着手分析:
①分析数据:首先利用离线数据作为样本库的参考.再
分析在线数据,由于数据量比较大,利用概要数据算法抽取
概要数据,成立概要数据库。根据用户点击,及时有效的反馈
资源的结果,并且随着时间的推移,根据用户的对资源需求
也会发生改变,根据概要数据库重新生成资源数据库。利用
数据挖掘算法库进行概要资源过滤、分析和整合建立多资源
分类的数据库,按照用户的不同需求进行决策,形成索引为
用户访问提供便利
( 分析用户:分析用户主要是为资源决策做准备。通过
用户的分析,可实现用户的定制服务、个性化服务。主要分析
用户提供信息资源的浏览目录.便于用户方便的从浩瀚的资
源中提取自己需要的资源。对于一些交叉性学科,用户想了
解该方面的知识.可以通过搜索进行。
3)应用服务层应用服务层是用户使用资源的窗13,是
资源对外交流的窗口,是用户使用资源的桥梁,资源使用的
方便和效率也与资源应用层的窗口有很大的关系。因此设计
资源应用服务窗口也是关键的一步。该应用服务窗口即生成
用户服务平台.根据用户请求信息,对资源请求链接的提供
和重构.并把资源生成目录服务,实现资源的分类服务项目
检索系统。提供给用户个性化的服务资源,利用推送服务,专
门提供用户,为用户定制一份属于自己的网站。
3资源服务平台的关键技术
1)数据预处理 对静态数据的一般预处理方法,包括数
据净化、用户识别、会话识别、路径补充及事务识别等.本文
采用数据预处理在数据净化阶段只收集文件访问资源的记
录.对其他无关的文件予以舍弃,在用户识别时,利用IP地
址结合agent、网站的拓扑结构,进行识别。
对动态数据流的处理方法。采取边传输边根据静态数据
处理成立的样本库,进行进行对比、过滤、筛选出合适的数
据,利用概要数据库存储处理过的数据。随着数据流不断的
增加,采取压缩数据库和滑动窗口技术定期抽取数据处理.
保留数据的概要信息。所以,当数据流积累一段时间后,提取
概要信息。
2)数据算法的选取挖掘数据流是一种长期、动态的过
程.针对各种不同数据流模型设计出不同的数据流处理算
法。数据流算法在处理时,经常采用滑动窗口模型对最近时
间段内的数据进行处理,按照所取一段时间内的数据或定期
抽取,按时间点等多种方式进行数据资源库挖掘,并利用分
类、聚类和关联算法,构造相关资源的相关性。进行资源整
合。数据流算法的选取是一个关键问题,数据流算法具备近
似性、自适应性.对数据抽取出近似计算结果。
3)模式发现方法 采用聚类、分类、关联 3种方式进行
自动模式发现。聚类分析可以Web数据库中聚类出相似属
性的Web用户及资源,分析这些具有相似浏览行为的用户找
出其共同特性,可以更好了解用户需求;分析具有相似性的
Web资源,可以及时迅速发现网站的热点信息。分类可构造
出分类模型,利用分类函数确定其类别.描述出公共属性.分
类后的事务可以用关联规则进行数据挖掘处理,更为有效。
另外,利用关联规则可以找到用户对网站上各文件直接的相
互关系,挖掘出用户不同浏览事务涉及的文件间的联系规
律,进而可以对网站设计给出反馈信息,合理组织网站框架
及链接结构,让用户易于访问到自己需要网页。
4)资源权限 资源权限主要从两个方向考虑:一是信息
-
89-
《电子设计工程}2011年第5期
资源的权限,授予权限资源的提供权限,有很多资源可以通
过页面分析实现资源整合,提供原始的链接。有些资源实现
5结 论
高校教育资源服务平台服务功能的完善.需要不同类型
网站服务资源结合用户访问网站需求信息.综合决策生成利
于用户访问的原始资源网站和重建链接的网站资源.成为用
资源的重建链接。访问的资源可以进行分类:共享免费的资
源,收费的资源,代理资源,公用资源/专用资源等几大模块。
另外一个是资源访问的用户权限,应该包括用户的注册信
息,单点登录,(用户登陆访问资源,考虑登录用户)资源整合
系统的生成(校内Web资源整合服务的生成和调用)。资源整
户和网站交流应用的平台。通过教育资源服务平台的实现,
能够有效地实现数据、信息和资源的全面集成。能够更优、更
合的原始链接和重建链接,针对原始链接涉及到资源的权限 快、更好的实现资源服务,从而提高了高校教育服务的质量。
问题,重建链接比较麻烦.用户希望的重建链接。对用户的访
问更具体化。
5)资源整合资源的多样性、数据库的分布性、数据库
的异构性是实现资源整合的关键特性.资源导航和检索.通
过站点资源的发现、分类、标引服务;站点资源的分类分析处
理和存储管理:网络资源的检索和调用服务。用户访问资源
的权限,用户资源整合的配送服务等方面的内容也就是Web
资源整合服务的生成和调用。
6)资源检索 资源名称、资源的URL地址、资源简介、资
源关键词、资源类型等分布异构数据库的检索,比如
Dilaogweb多数据库扫描检索。针对某个内容、关键词等满足
用户需求的检索.越是具体.效果越好。因此做到检索结果具
体化,在检索过滤方面进行词条分析的相关技术。在搜索上,
应该进行细线条、深层次、宽范围的检索,越细越是找到用户
对应的资源越具体.不至于造成搜索到大量数据和拥护不相
关的内容很多,用户没有兴趣看下去。方便快捷的找到搜索
结果是用户检索的需要。通过用户对资源的请求情况实时资
源分类。满足不同用户对资源的信息检索功能,提供用户所
需的服务
4资源服务平台的实现
高校资源服务平台根据用户提出的问题在原有服务的
基础上,实现解决方案的服务。它是建立在原始信息知识的
基础上。结合用户需要访问的问题与环境具备的问题,利用
Web数据流挖掘出的结果,通过对数据的析取、整合、集成实
现应用。形成易于理解且恰好符合用户需要的数据.体现数
据资源的有效性。实现Web服务平台的具体方法是分类各
种教育资源。将分类好的资源利用分类用户决策树,把用户
的请求信息或者拟请求信息,发给用户服务平台,用户服务
平台根据用户的请求资源,对资源建立重新链接或者提供原
始服务链接。实现挖掘结果的服务。
用户是使用资源的窗口。是资源对外服务交流的窗口,
是用户使用资源的桥梁.资源使用的方便和效率也与资源服
务的窗口密切相关.因此应该设计出可视化的服务平台供用
户使用。除涉及友好的服务平台外,还有一些资源的服务策
略。增加用户的服务体验。主动分析和把握用户需求.充分利
用拥有的信息资源优势,开展资源服务,提高数据服务的质
量和效率。体现数据爆炸时代数据的更有用性。
-
90-
开展高校资源服务,提高资源服务质量是开发高校教育资源
服务平台最重要的目的。
资源服务应该面向信息资源查询服务、内容服务、用户
整合服务等多层次意义上的整合服务.提高教育资源的使用
效率,达到多功能、立体化服务的目的。
参考文献:
【1】苏新宁,章成志,卫平.论信息资源整合[J】.现代图书情报
技术,2005(9):54-61.
SU Xin-ning,ZHANG Cheng・zhi,WEI Ping.A survey of
information resources integration[J[.New Technology fo Library
and Information Service,2005(9):54—61.
【2】金澈清,钱卫宁,周傲英.流数据分析与管理综述【J】.软件
学报,2004,15(8):l172一l181.
JIN Che—qing,QIAN Wei-ning,ZHOU Ao—ying.Analysis and
management of streaming data:a surve ̄Journal fo Software,
2Oo4,15(8):1 172一l 181.
[3 Ga3】ber M M,Zaslavsky A,Krishnaswamy S Mining data streams
a review[J[.ACM Sigmod Record,2005,34(2):18—26.
f4】Aggarwal C C,Han J,Wang J,et a1.A framework for
clustering evolving data streams【C】//Proc of the 29th VLDB
Conf,2003:81-92.
【5】Aggarwal C C,Han J,Wang J,et a1.A framework for proje・
cted clustering fo high dimensional data streams【q,,Proc of
the 30th VLDB Conf,2004:852—863.
【6 Gi6】annella C,Han J,Pei J,et a1.Mining frequent patterns in
data streams at multiple time granularities fM】.Kargupta H,
Joshi A,Sivakumar K,eda Next Generation Data Minin ̄
Cambridge,Massachusetts:MIT Press,2003:191-212.
【7】冯兴杰,黄亚楼.增量式CURE聚类算法研究【J】.小型微型
计算机系统,2004,25(10):1847—1849.
FENG Xing-jie,HUANG Ya・lou.Research on incremental
clustering algorithm based on CURE ̄].Mini-micro Systems,
20o4.25(10):l847一l849.
【8】Street W N,Kim Y S.A streaming ensemble algorithm for
large scale classiifcation[C[//Proc of the Seventh ACM SIGKDD
Intl Conf on Knowledge Discovery and Data Mining,2001:
377-382.
版权声明:本文标题:基于Web数据挖掘的高校教育资源服务平台_论文 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1718485998a722866.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论