admin 管理员组文章数量: 1086019
2024年4月19日发(作者:二叉树遍历前中后例题)
基
于
×
王
广
的
网
页
WEB Data Mining Based Oil XML
数
据
挖
掘
熊一利徐鹏
Xiong Yili Xu Peng
(江西蓝天学院计算机系,江西南昌330029)
(Dept.of Computer,Jiangxi BlueSky University,Jiangxi Nanchang 30029)
摘要:随着Internet的迅速发展,使得“数据丰富而信息贫乏”这对矛盾显得日益突出,数据挖掘技术正是应了这一需
求而结合了机器学>-j、模式识别、统计学、人工智能、神经网络等多学科而出现的一项新技术,基于Web的数据挖掘是数据挖
掘技术在网络信息处理中的应用。本文叙述了Web数据挖掘的概念、分类、技术等,重点讨论了基于XML语言的Web数据挖掘
技术,解决了Internet上绝大多数非结构化甚至是无结构的、Web信息的组织结构性差而导致的Web数据挖掘困难的问题。
关键词:数据挖掘;Web挖掘;XML
中图分类号:TP311.13 文献标识码:A 文章编号:1671—4792-(2010)i-0073-03
Abstract:With the rapid development of internet,the phenomenon of data is rich but information is
poor”is become more and more evident,data mining technology that cater the demand and integrate the ma-
chine learning,pattern recOgnitiOn,statistics, artificial intel1igence, nerve network and so on that become
a new technology,Web-based data mining is defined as the app1icatiOn of data mining technology on the net—
work information processing.This paper describes the concept,classificatiOn and technology of web-based
data mining,then discusses the web data mining based on) ,solved the web data mining problem which is
caused by the non-structure of the much Internet data and the poor structure of the Web information.
Keywords:Data Mining;Web Mining;XML
1 数据挖掘、Web数据挖掘的基本概念
一
种半结构化的数据,这是Web数据的另—个重要的特点四。
1.1数据挖掘(Data mining)
2 Web数据挖掘的分类
根据W.J.Frawley和G.P.Shapiro等人的定义,数据 Web数据有三种类型:它们分别是MTML标记的Web文档
挖掘(DataMining,DM)是指从大型数据库的数据中提取出人 数据、Web文档内的结构数据和用户访问的日志数据,相应
们感兴趣的知识,这些知识是隐含的、事先未知的、潜在的有 地,Web数据挖掘可分为三类:内容挖掘(Web content mirr.
用信息【】】。数据挖掘的主要目的是提高市场决策能力,检测 ing)、结构挖掘(Web structure mining)和用户使用挖掘
异常模式,在过去的经验基础上预言未来趋势等。
(Web usage mining)捌。如图一所示。
1.2 Web数据挖掘
Web数据挖掘是从数据挖掘发展而来的,是数据挖掘技
术应用于Web信息的一个崭新领域。Web上的数据与传统数
据库中的数据不同之处在于传统数据库都有一定的模型,可
以根据数据模型来对具体的数据进行描述,而Web站点中的
数据不存在统~的数据模型,各站点都是独自设计,并且站
点中的数据是处于不停变化之中的,因此传统的数据挖掘技
术并不适应Web数据挖掘。但因为Web有自身的结构,大体
上,站点的结构差异并不是特别大,所以可以认为Web数据是
图一 Web挖掘分类
~
2.1 Web内容挖掘
4 XML与Web数据挖掘
Web内容挖掘是从文档内容或其描述中抽取有趣知识
的一种过程,是一种基于网页内容元素对象的Web挖掘。这
些元素对象既有文本和超过文本数据,也有图形、图像等多
4.1 x儿介绍
舭(Extensible Markup Language)即“可扩展的标置
语言”,它是由万维网协会(W3C)设计,特别是Web应用服务
的SGML(Standard General Markup Language)的一个重要
媒体数据;既有来自于数据库的结构化数据,也有用HTML标
记或XML标记的半结构化数据和无结构的自由文本。Web内
容挖掘可以协助用户搜索信息,可以根据用户搜索条件过滤
无用的信息。
2.2 Web结构挖掘
Web结构挖掘是从Web的组织结构和链接关系中推导有
趣知识的过程。挖掘页面的结构和Web结构,可以用来指导
对页面进行分类和聚类,找到权威页面,从而提高检索的性
能。同时还可以用来指导页面采集工作,提高采集效率。Web
结构挖掘的目的是寻找页面之间内在的有趣的联系,用户的
访问模式与访问习惯,以便更好的组织页面和使用页面。
2.3 Web使用挖掘
Web使用挖掘是从服务器端记录的用户访问日志或从
用户的浏览信息中抽取有趣知识的模式,通过分析这些数据
可以帮助我们理解用户隐藏在数据中的行为模式,做出预测
性分析,从而改进站点的结构或为用户提供个性化的服务。
3 Web挖掘技术
目前应用在数据挖掘上的技术有很多,比较流行的有人
工神经网络、遗传算法、决策树、近邻算法、规则推导等。
(1)人工神经网络(Artificial Noural Network):它是
仿照生理神经网络结构的非线性预测模型,通过学习,进行
模式识别,可以完成分类、聚类、特征挖掘等数据挖掘任务。
(2)遗传算法(Genetic Algorithm):它是基于进化理
论,并采用遗传变异、遗传组合和自然选择等设计方法的优
化技术。将数据挖掘任务表达为一种搜索问题从而可以发挥
遗传算法的优化搜索能力。
(3)决策树(Decision Tree):是用树形结构来表示决
策,这些决策通过对数据集的分类产生规则。这种方法一般
用于分类规则的挖掘,典型的决策方法有分类回归树
(CART)。 ’
(4)近邻算法(Neighbor Algorithm):是将数据集合中
的每一个记录进行分类的方法,这种方法可以用作聚类、偏
差分析等挖掘任务。
(5)规则推导(Rule Induction):是从统计意义上对数
据中的“if—then”规则进行寻找和推导,是统计学在数据挖
掘中的应用,这种方法可以用作关联规则的挖掘。
分支。它是一种中介标示语言(Meta-markup Language),可
提供描述结构化资料的格式。XML描述的是数据内容和语
义,而不像HTML那样描述的是显示样式和布局,XML文档除
了可以用文本编辑器浏览外,由于它有天然的层次结构,更
为复杂的输出样式,所以可以用过滤器,XML文档的Web输
出如图二所示。
Ix 据J I xs 据I
』 J
选用样式对xMI教据进行过滤
IT
经过格式化的输出 f L)
图二XML格式化文档输出
4.2 XML的主要特点
(I)简洁有效:XML是一个精简的SGML,它将SGML的丰
富功能与HTML的易用性结合到Web应用中,它保留了SGML
的可扩展功能,这使得XML从根本上区别于HTML。并且XML
中还包括可扩展格式语言XSL(Extensible Style La
guage)和可扩展链接语言XLL(Extensible Linking Larr.
guage),使得XML的显示和解析更加方便快捷。
(2)开放的国际化标准:) 是W3C正式批准的,它完全
可用于Web和工具的开发。XML具有标准的名域说明方法,
支持文档对象模型标准、可扩展类型语言标准、可扩展链接
语言标准和XML指针语言标准。使用删L可以在不同的计算
机系统间交换信息,而且还可以跨越国界和超越不同文化疆
界交换信息。
(3)高效可扩充:XML支持复用文档片断,使用者可以发
明和使用自己的标签,也可以与他人共享,可延伸性大。在
XML中,可定义一组无限量的标准,可以有效地进行XML文
件的扩充。
4.3 XML在Web数据挖掘中的应用
XML已经成为正式的规范,开发人员能够用XML的格式
标记和交换数据。XML在三层架构上为数据的处理提供了很
好的方法。使用可升级的三层模型,XML可以从存在的数据
~ 械 …
据
一脚 哪 僦 。t
基
于
互
一…—— 二] 一 。w ge Discovery训oata Mining 广 的
一 l if爱ornia.AAI/MITPre s,196. 掘页数据挖网
版权声明:本文标题:基于XML的网页数据挖掘 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1713493626a637448.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论