admin 管理员组

文章数量: 1086019


2024年4月19日发(作者:二叉树遍历前中后例题)

基 

于 

× 

王 

广 

的 

网 

页 

WEB Data Mining Based Oil XML 

数 

据 

挖 

掘 

熊一利徐鹏 

Xiong Yili Xu Peng 

(江西蓝天学院计算机系,江西南昌330029) 

(Dept.of Computer,Jiangxi BlueSky University,Jiangxi Nanchang 30029) 

摘要:随着Internet的迅速发展,使得“数据丰富而信息贫乏”这对矛盾显得日益突出,数据挖掘技术正是应了这一需 

求而结合了机器学>-j、模式识别、统计学、人工智能、神经网络等多学科而出现的一项新技术,基于Web的数据挖掘是数据挖 

掘技术在网络信息处理中的应用。本文叙述了Web数据挖掘的概念、分类、技术等,重点讨论了基于XML语言的Web数据挖掘 

技术,解决了Internet上绝大多数非结构化甚至是无结构的、Web信息的组织结构性差而导致的Web数据挖掘困难的问题。 

关键词:数据挖掘;Web挖掘;XML 

中图分类号:TP311.13 文献标识码:A 文章编号:1671—4792-(2010)i-0073-03 

Abstract:With the rapid development of internet,the phenomenon of data is rich but information is 

poor”is become more and more evident,data mining technology that cater the demand and integrate the ma- 

chine learning,pattern recOgnitiOn,statistics, artificial intel1igence, nerve network and so on that become 

a new technology,Web-based data mining is defined as the app1icatiOn of data mining technology on the net— 

work information processing.This paper describes the concept,classificatiOn and technology of web-based 

data mining,then discusses the web data mining based on) ,solved the web data mining problem which is 

caused by the non-structure of the much Internet data and the poor structure of the Web information. 

Keywords:Data Mining;Web Mining;XML 

1 数据挖掘、Web数据挖掘的基本概念 

种半结构化的数据,这是Web数据的另—个重要的特点四。 

1.1数据挖掘(Data mining) 

2 Web数据挖掘的分类 

根据W.J.Frawley和G.P.Shapiro等人的定义,数据 Web数据有三种类型:它们分别是MTML标记的Web文档 

挖掘(DataMining,DM)是指从大型数据库的数据中提取出人 数据、Web文档内的结构数据和用户访问的日志数据,相应 

们感兴趣的知识,这些知识是隐含的、事先未知的、潜在的有 地,Web数据挖掘可分为三类:内容挖掘(Web content mirr. 

用信息【】】。数据挖掘的主要目的是提高市场决策能力,检测 ing)、结构挖掘(Web structure mining)和用户使用挖掘 

异常模式,在过去的经验基础上预言未来趋势等。 

(Web usage mining)捌。如图一所示。 

1.2 Web数据挖掘 

Web数据挖掘是从数据挖掘发展而来的,是数据挖掘技 

术应用于Web信息的一个崭新领域。Web上的数据与传统数 

据库中的数据不同之处在于传统数据库都有一定的模型,可 

以根据数据模型来对具体的数据进行描述,而Web站点中的 

数据不存在统~的数据模型,各站点都是独自设计,并且站 

点中的数据是处于不停变化之中的,因此传统的数据挖掘技 

术并不适应Web数据挖掘。但因为Web有自身的结构,大体 

上,站点的结构差异并不是特别大,所以可以认为Web数据是 

图一 Web挖掘分类 

~ 

2.1 Web内容挖掘 

4 XML与Web数据挖掘 

Web内容挖掘是从文档内容或其描述中抽取有趣知识 

的一种过程,是一种基于网页内容元素对象的Web挖掘。这 

些元素对象既有文本和超过文本数据,也有图形、图像等多 

4.1 x儿介绍 

舭(Extensible Markup Language)即“可扩展的标置 

语言”,它是由万维网协会(W3C)设计,特别是Web应用服务 

的SGML(Standard General Markup Language)的一个重要 

媒体数据;既有来自于数据库的结构化数据,也有用HTML标 

记或XML标记的半结构化数据和无结构的自由文本。Web内 

容挖掘可以协助用户搜索信息,可以根据用户搜索条件过滤 

无用的信息。 

2.2 Web结构挖掘 

Web结构挖掘是从Web的组织结构和链接关系中推导有 

趣知识的过程。挖掘页面的结构和Web结构,可以用来指导 

对页面进行分类和聚类,找到权威页面,从而提高检索的性 

能。同时还可以用来指导页面采集工作,提高采集效率。Web 

结构挖掘的目的是寻找页面之间内在的有趣的联系,用户的 

访问模式与访问习惯,以便更好的组织页面和使用页面。 

2.3 Web使用挖掘 

Web使用挖掘是从服务器端记录的用户访问日志或从 

用户的浏览信息中抽取有趣知识的模式,通过分析这些数据 

可以帮助我们理解用户隐藏在数据中的行为模式,做出预测 

性分析,从而改进站点的结构或为用户提供个性化的服务。 

3 Web挖掘技术 

目前应用在数据挖掘上的技术有很多,比较流行的有人 

工神经网络、遗传算法、决策树、近邻算法、规则推导等。 

(1)人工神经网络(Artificial Noural Network):它是 

仿照生理神经网络结构的非线性预测模型,通过学习,进行 

模式识别,可以完成分类、聚类、特征挖掘等数据挖掘任务。 

(2)遗传算法(Genetic Algorithm):它是基于进化理 

论,并采用遗传变异、遗传组合和自然选择等设计方法的优 

化技术。将数据挖掘任务表达为一种搜索问题从而可以发挥 

遗传算法的优化搜索能力。 

(3)决策树(Decision Tree):是用树形结构来表示决 

策,这些决策通过对数据集的分类产生规则。这种方法一般 

用于分类规则的挖掘,典型的决策方法有分类回归树 

(CART)。  ’

(4)近邻算法(Neighbor Algorithm):是将数据集合中 

的每一个记录进行分类的方法,这种方法可以用作聚类、偏 

差分析等挖掘任务。 

(5)规则推导(Rule Induction):是从统计意义上对数 

据中的“if—then”规则进行寻找和推导,是统计学在数据挖 

掘中的应用,这种方法可以用作关联规则的挖掘。 

分支。它是一种中介标示语言(Meta-markup Language),可 

提供描述结构化资料的格式。XML描述的是数据内容和语 

义,而不像HTML那样描述的是显示样式和布局,XML文档除 

了可以用文本编辑器浏览外,由于它有天然的层次结构,更 

为复杂的输出样式,所以可以用过滤器,XML文档的Web输 

出如图二所示。 

 Ix 据J I xs 据I 

』 J 

选用样式对xMI教据进行过滤 

 IT 

经过格式化的输出 f L) 

图二XML格式化文档输出 

4.2 XML的主要特点 

(I)简洁有效:XML是一个精简的SGML,它将SGML的丰 

富功能与HTML的易用性结合到Web应用中,它保留了SGML 

的可扩展功能,这使得XML从根本上区别于HTML。并且XML 

中还包括可扩展格式语言XSL(Extensible Style La 

guage)和可扩展链接语言XLL(Extensible Linking Larr. 

guage),使得XML的显示和解析更加方便快捷。 

(2)开放的国际化标准:) 是W3C正式批准的,它完全 

可用于Web和工具的开发。XML具有标准的名域说明方法, 

支持文档对象模型标准、可扩展类型语言标准、可扩展链接 

语言标准和XML指针语言标准。使用删L可以在不同的计算 

机系统间交换信息,而且还可以跨越国界和超越不同文化疆 

界交换信息。 

(3)高效可扩充:XML支持复用文档片断,使用者可以发 

明和使用自己的标签,也可以与他人共享,可延伸性大。在 

XML中,可定义一组无限量的标准,可以有效地进行XML文 

件的扩充。 

4.3 XML在Web数据挖掘中的应用 

XML已经成为正式的规范,开发人员能够用XML的格式 

标记和交换数据。XML在三层架构上为数据的处理提供了很 

好的方法。使用可升级的三层模型,XML可以从存在的数据 

~ 械 … 

据 

一脚 哪 僦 。t 

基 

于 

互 

一…—— 二] 一 。w ge Discovery训oata Mining 广 的 

一 l if爱ornia.AAI/MITPre s,196. 掘页数据挖网 


本文标签: 数据 挖掘 结构 用户 数据挖掘