admin 管理员组

文章数量: 1086019


2024年4月19日发(作者:sql查询是否存在某个数据)

2009年5月 

天津大学学报(社会科学版) 第11卷第3期 

Mav 2009 

JOURNAL 0F TIANJIN UNIVERSITY(SOCIAL SCIENCES) 

Vo1.11 No.3 

结构和内容联合提取的XML网页分类研究 

阎红灿 ,李敏强 ,任蕴丽 ,阎少宏2 

(1.天津大学管理学院,天津300072;2.河北理工大学理学院,唐山063009; 

3.河北科技师范学院数理系,秦皇岛066004) 

摘 要:针对XML网页特点,重点研究了XML文档结构和内容特征的提取方法,提出了一种基于频繁结构层次空 

间模型的联合特征提取策略,并给出了结构特征权重和关键词出现的位置及频度权重的计算公式,并根据计算结果提 

取XML网页特征矩阵,分别就结构、内容联合提取三种情况进行分类测试,通过ROSSETA系统,利用粗糙集优越的属 

性约简构造文本分类系统,实现XML文档分类。实验表明,该方法分类准确度较高,计算量较小。 

关键词:XML网页分类;频繁结构层次空间模型;联合特征提取;粗糙集;网页特征矩阵 

中图分类号:F270.7 文献标志码:A 文章编号:1008—4339(2008)03—0272-05 

随着Web网上数据传递的增多,HTML存在的 方法要么仅研究文档的结构关系,没有考虑文本内 

缺点越来越明显,必须有一种方法能够把数据和显示 容,或者针对特定的挖掘技术,虽然想法新颖,可推广 

分离出来,于是出现了XML(eXtensible Markup Lan— 

性较差。 

guage)。XML保留了很多SGML标准的优点,更容 

本文结合XRules(structural rule—based classiiifca— 

易操作,便于在www环境下实现,特别自我描述方 

tion)规则、无序频繁子树挖掘算法 J和Ⅳ层向量空间 

式定义的数据结构,能够体现数据之间的关系,便于 

模型[5 J,提出了一种综合利用XML分层结构信息和 

应用程序操作,因而XML成为网上数据表示和交换 

关键词内容信息[7-8]进行文档分析的数据模型——频 

的主要格式,出现了大量丰富信息的XML页面。如 繁结构层次向量空间模型,通过构造决策表,利用粗 

何有效地存储、管理、利用这些数据,已成为Internet 糙集理论的属性约简达到特征值降维目的【9 ,实现 

领域内亟待解决的问题,其中对文本进行自动分类处 了基于规则的分类方法。实验表明,此方法不仅具有 

理就是一个重要的组成部分。 

更高的准确性,而且计算代价更小。 

XML文档是文本内容信息与结构信息的综合 

体,XML文档分析区别于传统文本分析的关键在于 

XML文档模型及特征分析 

结构信息的获取与利用,一般文件的分类方法不但体 

现不出XML文件的优点,更可能使得分类效果相对 

XML文档是文本文件,均为Unicode编码,基本 

于普通文本更差,因此有必要研究一种专门针对 

内容包括XML声明、注释、标记、元素、属性和内容 

XML文档的分类方法。 

这样几个部分,前两部分主要表明文件的版本信息和 

近年来,国内外研究者X, ̄XML文档等半结构化 

用途等内容,数据部分体现在后四部分,是我们主要 

数据的分析处理给予了越来越多的关注,但文本挖掘 研究对象。一个有效的XML文档被视为一棵带标签 

方面的研究成果相对较少。Yi等人提出了一种用于半 的结点树,称为文档模型,图1所示为杂志和会议论 

结构化文档分类的扩展向量模型,采用嵌套定义的向 

文集中学术论文的XML文档结构模型(图中不分元 

量描述文档元素,通过概率统计方法进行分类Ll J, 

素和属I性,均为标签名称)。一个XML文档对应一棵 

Denoyer等人提出了利用贝叶斯网络模型进行半结构 

有向树 < , ,其中 由文档中所有标签元素结 

化文档分类的方法l2],Flesca等人将结构信息看做时 

点或者标签的属性构成,集合 可定义为:若元素口 

序关系,通过时序分析计算文档结构相似性_3】。这些 ∈V,且元素的子元素或属性b∈V,则(a,b)∈E。 

收稿日期: 

2008—03.04. 

基金项目: 

高等学校博士学科点专项科研基金资助项目(20020056047) 

作者简介: 

阎红灿(1968一 ),女,副教授 

通讯作者: 

李敏强,mqli@0u edu,ell 

2009年5月 阎红灿等:结构和内容联合提取的XML网页分类研究 

图1杂志和会议论文集XML文档结构模型 

从图1可以看出,XML文档中元素和子元素构 

mode1)中的文本段,整个XML文档则被量化为一组 

成了文件的分层结构,位于不同层次的结点标记具有 

向量,以一个矩阵来表示,称为特征值矩阵,如表1所 

不同的重要性,据此分类时应有不同的权重分配,文 示,从而达到将半结构化文本的结构分析与文本内容 

档中的数据关键词信息基本出现在文档树中的叶结 

分析相结合的目的。 

点上,因此根据内容分类时可以只考虑叶结点。 

表1频繁结构层次向量空间模型的特征值矩阵 

二、XML文档结构与内容的联合相关度 

文本结构特征 文本内容特征(关键词) 

(频繁结构) Key1 Key2 key 

dx(1,1) (k(1,2) (h(1,m) 

XRules分类只考虑XML文档结构信息,通过挖 

dr(2,1) dx(2,2) (h(2, ) 

● 

掘满足一定支持度的结构规则进行分类,适用于 

: 

XML结构信息利用,如生物信息学等领域。很显然, 

sk dx(k,1) ( ,2) dx(k,m) 

除了结构影响XML的分类外,文档内容中的关键词 

2.结构和内容联合相关度计算 

对分类也起着重要的作用,如两篇文献资料按照学术 

XML文档频繁结构的挖掘采用TreeMiner+算法, 

研究领域分类既要考虑其文档结构,同时更要处理其 结构单元中的结点记载了源文档中的层次属性,这与 

中描述的内容。 

文本内容的权重相关。图1中的频繁结构(假定 

1.频繁结构层次向量空间模型 

Minsup=50%)中,结点集合{Journal,Name,Vol, 

作者在详细描述了频繁结构向量空间的构造方 

Articles,Title,Author,Abstract,KeyWord,FullText, 

法的基础上提出了频繁结构层次向量空间模型。该 

Confrence,Resume}均为频繁结点,即为1一Subtree,2. 

模型将一个文档从结构上划分为JV层,对频繁结构 

Subtree共有1 8棵,图2所示为部分2-Subtree。每个 

中基于每层的文本段内容(叶结点)建立相应的文本 

频繁结构的权重函数为 

特征向量及文本层次权值向量。这样将每个频繁结 

严 (S )×B(Sj)X log(IDI4DF(s )+0.5) (1) 

构看做是一个列向量,类似于Ⅳ层VSM(vector space 

詈譬蓦罟罟罢害 

对每个文档模型树的叶结点按先序编号,如图3 

所示的文档树,分别统计计算各个叶结点关键词的频 

er(d): 

率TF=tf( 。叶结点文本关键词在文档中的位置权 

/Z(reL' ̄log(N/nf)) 

值W=父结点层权值/兄弟节结点个数(根结点层数为 

式中:Ⅳ为所有文档的数目;,z 为出现该关键词的文 

1,其中∑W:1)。如Name的位置权值为1/3,Author 

本数。 

的位置权值为1/9。XML文档d中第k关键词的频率 

XML文档被看成是由文档结构和若干关键词的 

表示为 

特征构成,每个文档被表示成一个 ×m的矩阵(表1 

TF=∑(w TF) (2) 

所示),其中 为文档集合中频繁结构的个数(按照支 

结合Salton提出的普通本文和HTML的权值计算 

持度降序排列),m为文档集合中关键词的个数,矩阵 

方法ll引,修正各关键词相关度计算公式为 

元素 (f, )表示在文档doc 中关键iNkeyj在频繁结构 

天 津大 学 学 报(社会科学版) 2009年5月 

岛中的权重。 

① 

图3 XML文档树的叶结点编号 

三、基于粗糙集的分类方法 

在进行特征权重计算和特征过滤后,得到训练集 

XML文档的结构和内容特征值矩阵,示意图如表2 

所示,其中-5T={ l, …., }为满足最小支持度的频繁 

结构集合,Ds表示每个频繁结构的权重,由式1得 

到。{key1,key2……key }为特征关键词, (sj)表示 

关键词i在结构sj,出现的频率,由式2得到。 

表2 XML文档的频繁结构层次向量空间特征值 

Ds keyl key2 key 

S1 dSl TFl(S,) TF2(S】) 刀 ( 1) 

dS2 7Fl( ) ( ) 刀 ( ) 

● ● 

: : 

最 dSk 刀 (&) z ( ) 丁 ( ) 

罗塞塔是挪威科技大学计算机与信息科学学院 

开发的在粗糙集理论的框架中进行数据分析的一个 

全面的软件系统,拥有一套灵活和强大的算法,并把 

这些算法放在一个用户友好的设计环境下旨在支持 

所有基于可分辨建模理论的情形,能够很好地进行属 

性约简、规则抽取、分类和绩效评价。本文采用 

ROSSETA系统对测试数据集进行分类,图4为系统 

的详细处理流程。 

图4 ROSSETA系统机器学习结构 

被输入的决策系统 的内容为测试文档集合的特 

征值(见表2)。 第一次清除缺失值产生A1,然后在分 

裂成两个不相交的子系统A2和 3。A2离散成一个两 

阶段程序, 用A:计算产生的截集来进行离散。然 

后由 2计算出约简和规则,并把生成的规则进行分 

类。 

(1)基于结构的分类。不考虑文档内容,只保留表 

2中频繁结构的特征值权重Ds列,整个XML文档集 

合的频繁结构构成特征空间,生成矩阵 的内容。 

(2)基于内容的分类。不考虑文档结构,只保留 

表2中关键词的权重,整个XML文档集合的特征词 

构成特征空间,由式3生成矩阵 的内容。 

(3)基于结构和内容联合的分类。XML文档分 

类有时受结构影响程度较大,如从发表论文是杂志论 

文还是会议论文角度出发,图1中的文档2和图3中 

的文档属于一类,但有时从文章论述内容出发,关键 

词特征起重要作用,所以一个文档有时同属于多类。 

对结构和内容分别分配不同的权重可以联合提取其 

特征值,以达到不同分类目的。 

每个频繁结构中的关键词特征事件是独立事件, 

每个频繁结构与在这个结构中出现的关键词之间是 

先验事件,表2中文档的每个关键词 在整个文档 

的权重 H除了与其所在文档层次有关外,还与其所 

在频繁结构的权重有关,所以将其修订为公式4,即 

解释为文档d中第i个关键词的权重为此关键词在 

每个频繁结构的频次与频繁结构权重的乘积累加。 

( = ̄TFk(Sk) dsk k=l,2….,/// (4) 

这样,每个文档的频繁结构层次向量空间由矩 

阵规划为一个向量,整个XML文档集合的结构和 

内容特征规划为m个关键词的权重值矩阵,即为 

的内容。由此文档集合的特征值矩阵可以表示为表 

3所示。 

表3 XML文档集合的特征值矩阵 

权重 ∑ F1 ∑ ∑ 

(&)*ds (&)*ds (Sk)*ds 

文档1(t1) WI1 W|2 Wier 

文档2(t2) W21 W22 W2m 

文档n(tn) Wnl 2 Ⅵ 

四、实验结果及分析 

实验使用AMD双核Athlon 4000+2.10GHz 

CPU,1G内存的个人计算机,所用操作系统为 

Windows 2000 Server,所有算法均使用Java语言实 

现,所用JDK为Java 2 Platform Standard Edition 5.0 

标准版。 

1.数据集与实验设计 

实验数据分为两类:一类采用ACMSIGMOD数 

据集中的Ordinary Issue Page和Index Terms Page 

2009年5月 阎红灿等:结构和内容联合提取的XML网页分类研究 

XML文件,用于基于文档结构的分类测试。数据子 

(iamge,link,copyright,guid等),主要对其中item项 

集使用情况见表4,文档总数中的第一个数字为训练 进行结构和内容的联合特征提取测试。为了简化实 

集,后一个数字为测试集。ACMSIGMOD文档中带 验过程,内容特征的提取采用人工方法完成。 

有分类信息,每个文档通常属于多个分类,如果一个 

文档特征符合多个文档的分类规则,认为这个文档同 

属多类,实验中采用分类信息来替代人工标注。实验 

结果的准确率采用公式5进行评价。 

(分类正确的文档数)/(测试文档总数) (5) 

fa)每页新闻网主文档结构 (b)每项新闻结构 

表4实验中使用的数据子集 

图5新闻网页的主要结构元素 

数据集 源数据 文档总数 

ACMSIGM0D.1 OrdinaryIssuePage(1 999) 40+20 

共提取这样的XML网页200篇,其中150篇作 

ACMSIGMOD一2 OrdinarylssuePage(2002) 2O+10 

为训练集,分别为财经、军事、汽车、科技、体育5类, 

ACMSIGMOD一3 IndexTermsPage(1 999) 40+20 

通过两种情况进行实验比较:一是对于每个XML文 

另一类数据使用新浪网RSS频道聚合(http: 档,仅考虑关键词特征频度;二是对于每个XML文 

//rss.sins.corn.cn)网站提供的基于XML格式的简易 

档关键词,考虑文档的频繁结构和关键词的位置权值 

RSS新闻,每类新闻网页的主文档结构树如图5(a) 

和频度。获得特征值 后仍然使用ROSSETA系统 

所示,每项新闻结构如图5(b)所示,为了说明结构和 

进行训练和测试,实验结果如表5所示,查准率采用 

内容对分类的影响,我们有意对部分XML网页文件 公式5评价,查全率采用公式6评价。 

做了一些结构修改,比如增删一些不太重要的元素 

(分类正确的文档数)/(该类应有的文档数) (6) 

表5基于XML文档结构和关键词特征分类实验结果 

数据集 财经News 军事News 汽车News 科技News 体育News 

训练样本(150) 3O 30 30 3O 30 

测试样本(50) 1O l0 10 l0 10 

频繁结构集合(48) 12 8 9 ll 8 

关键词集合(232) 62 44 25 65 36 

查全率/% 只考虑关键词 75.6 76_8 85-2 72.3 85 

结构和内容联合 91.5 93.1 95_8 92l3 96-2 

查准率/% 只考虑关键词 83.2 86.5 87.4 84.6 87.6 

结构和内容联合Structure ’ 95.6 97.2 97.6 96-3 98 1 

2.实验结果分析 

第一组数据集主要针对XML文档结构分类。从 

实验结果(见图6)中可以看出,采取频繁结构向量空 

间模型作为xML文档结构分类有很高的准确率,而且 

频繁子树的最小支持度越低,频繁结构越多,计算精 

度越高,一般情况下,minsup阈值为0.7即可达到要 

求,特别对文献类文档。结构分类准确率可以达到 

98%。 

最小支持厦 

第二组数据主要针对文档内容和结构的特征联 

图6不同数据集上的相似度准确率 

合分类,从实验结果表4中可以看出,在XML文档 

从实验数据可以看出,在XML文档分类中,有 

分类中,只考虑文档内容,即关键词信息,查全率都在 些文档集合适合按结构分类,如文献类资料的出版形 

70%一85%之间,查准率在85%左右,同时考虑文档 

式分类、网页结构分类等;有些文档集合必须同时考 

内容和结构,联合提取结构和关键词特征值,分类具 虑文档内容和结构,联合提取结构和关键词特征值, 

有更高的查全率和查准率,均在90%以上,特别是体 

分类才具有更高的查全率和查准率,如Web网页的 

育新闻类网页查准率可以达到98%。 

检索。 . 

・276・ 天津 大 学 学 报(社会科学版) 2009年5月 

五、结语 

sin,2002:124-131. 

[4] 马海兵,王兰成.高效挖掘无序频繁子树[J].小型微 

xML网页分类是实现Web信息分类检索的关键 

型计算机系统,2006,27(1 1):2104—2108. 

[5]张冉,卡米力-毛依丁.基于XML和N层VSM的 

web信息检索[J].计算机技术与发展,2006,16(5): 

56—58. 

技术,传统的信息检索模型已经不适合这种半结构化 

数据的分析处理,近年研究者虽然提出了各种结构分 

类方法,但是没有考虑文本内容信息,况且以图和距 

离计算为核心,计算复杂,难以用于大文档集合的分 

类。本文提出的频繁结构向量空间模型联合考虑文 

[6]牛强,王志晓,陈岱,等.基于SVM的中文网页分 

类方法的研究[J].计算机工程与设计,2007,28(8): 

档结构和内容,提高了分类准确率,同时采用 

l893一l895. 

TreeMiner 算法挖掘频繁子树,通过联合提取结构和 

[7]袁家政,须德,鲍泓,等.基于结构与文本关键词相 

内容特征,通过向量内积的形式计算文档相似度,减 

关度的XML网页分类研究[J].计算机研究与发展, 

少了时间开销。 

2006,43(8):1361.1367. 

[8]唐凯.基于内容和分层结构的XML文件自动分类 

参考文献: 

方法[J].计算机工程与应用,2007,43(3):168—172. 

J.Sundarcsan N.A classiifer for semi—structured 

[9]韩景倜,卢致杰,覃正.基于XML的复杂信息系统 

documents[C]//Ramakrishnan R,Stolof S,Pregibon D. 

自动分类方法[J].系统1二程理论与应用,2005,14(6): 

Proc o『the h ACM SIGKDD Int’l C0nf on Knowledge 

488—492. 

Discovery and Data Mining.New York:ACM Press, 

[10]王效岳,白如江.基于变精度粗糙集模型的web文档 

2000:340—344. 

分类方法[J].现代图书情报技术,2005,131(12):51. 

[2] 

Denoyer L.Gallinari P Bayesian network model for 

54. 

semi.sturctured document classiifcation[J]。Information 

[11]李滔,王俊普,徐杨.一种基于粗糙集的网页分类 

Processing andMangement,2004,40(5):807—827. 

方法[J].小型微型计算机系统,2003,24(3):521.524. 

[3] 

Flesca S,Manco G,Masciari E,et a1.Detecting structural 

[12]Salton G.Introduction to Modem Information Re— 

similarities between XML documents[C]//Proc 5 Int’ 

trieval[M] New York:McGraw Hill Book Company, 

Workshop on the Web and Databases.Madison:Wiscon— 

1983:l24.156. 

Study XML Pages Classiifcation Based on Combined Structure and 

Content Extraction 

YAN Hong.can ' ,LI Min—qiang ,REN Yun—li ,YAN Shao—hong 

(1.School of Management,Tianjin University,Tianjin 300072,China;2.College of Sciences,Hebei Polytechnic 

University,Tangshan 063009,China;3.Department of Mathematics and Physics,Hebei Normal Univercity of Science 

and Technology,Qinhuangdao 066004,China) 

Abstract:According to the feature of XML Web page,we researched the method to extract structure and content 

features from XML documents,propased an efifcient strategy of extracting combined features based on frequency 

structure hierarchy space model,provided the calculating method of the feature weight of structure,the position weight 

and the frequency of keywords,and then obtained the Web page feature matrix.Three instances of classiifcation based 

on structure,content,and combined structure and content were experimented on separately by ROSSEATA system, 

using the superior reduction of the rough sets to construct a text categorization system.The experiments show that the 

classiifcation has high accuracy,but costs less time. 

Keywords:XML page classification;frequent structure hierarchy space model;combined feature extraction;rough 

set;Webpagefeaturematrix 


本文标签: 结构 文档 分类 内容 数据