admin 管理员组

文章数量: 1086019


2024年4月20日发(作者:不是有效的json)

维普资讯

t信息祷哮 |j量 

基于XML的Web数据挖掘技术 

唐红光周铁军 

(中南林业科技大学计算机科学学院,湖南长沙410004) 

摘 要:随着HTML格式的出现,Internet得到了迅猛发展,面对着浩瀚如烟的数据,为了从中发现潜在的、有价值的信息,必须对Web信息进 

行挖掘;XML语言具有良好的结构,层次性好,用其对Web页面信息进行组织,有利于进行数据挖掘工作。通过对XML及其特点的介绍,提出了一 

种XML的数据模型,以帮助用户快速、有效的挖掘Web上的信息。 

关键词:XML;数据挖掘;Web数据挖掘;半结构化 

引言。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据 

中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的 

过程Ⅲc随着互联网的飞速发展,Web上的数据量急剧膨胀,但是其中蕴含的 

知识却未能得到充分的挖掘和利用,因此将传统的数据挖掘技术和Web结 

合起来,进行Web数据挖掘成为数据挖掘技术研究的热点。以XML为基础 

的新一代www环境是直接面对Web数据的,不仅可以很好地兼容原有的 

Web应用,而且可以更好地实现web中的信息共享与交换,是未来的发展 

趋势,研究基于XML的Web数据挖掘技术具有很重要的现实意义。 

1面向Web的数据挖掘 

L1 Web数据挖掘的定义。Web数据挖掘就是利用数据挖掘技术从网 

络文档和服务中发现和提取信息 。它的一般处理过程如图1表示。 

1.2 Web上数据的特点和 

Web挖掘的难点 

1.2.1 Web数据的特点。Web 

上的数据与传统的数据库中的数 

据不同,Web上的数据最大特点 

就是半结构化,所渭半结构化是 

相对于结构化和非结构化而言 

图1 Web数据挖掘处 

的,传统的数据库都有一定的数 

据模型,可以根据模型来具体描述特定的数据,而且按照一定的组织有规 

律的集中或者分布存放,结构性很强,而Web上的数据非常复杂。没有特定 

的模型描述,每一站点的数据都各自独立设计并且数据本身具有自述性和 

动态可变性,因而Web上的数据不是强结构性的,但与此『司时Web页面又 

是有描述层次的,单个网站也是按照各自的结构构架的,从而具有一定的 

结构性。半结构化数据具有以下五方面的主要特点:a结构是不规则的。h结 

构是隐含的。c.结构是部分的有时部分数据根本无结构,而部分数据只有粗 

略的结构。d指示性结构与约束性结构。e半结构化数据通常在数据存在之 

后才能通过当前数据归纳出其结构,称之为事后模式引导。模式有时可被 

忽略,同时数据与数据模式问的区别逐渐消除。 

1.22 Web数据挖掘面临的难点。由于Web数据具有这些特点,所以 

在数据挖掘中存在着一定的困难。对Web数据进行挖掘时首先必须解决 

半结构化数据源模型和半结构化数据模型的查询与集成问题,而解决Web 

上的异构数据的集成与查询问题,必须要有一个模型来清晰地描述Web 

上的数据。另外,针对Web上的数据半结构化的特点,寻找一个半结构化的 

数据模型是解决问题的关键所在。因此在Web上进行数据挖掘。必须做到 

两点:第一要建立一个半结构化数据模型,以描写Web上的数据;第二需要 

种半结构化模型抽取技术。即自动地从现有数据中抽取半结构化模型的 

技术。面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽 

取技术为前提。 

2 XML语言及其在Web数据挖掘中的优势 

2.1 XML及其特性。XML是由万维网协会(W3C)i ̄计的一种中介标示 

语言(Meta-markup Language),它提供了描述结构化效据的格式,可以通过 

独立运行程序的方法来共享效据。同时,XML又是一种是用来自动描述信 

息的新的标准语言,它能使计算机通过Internet的强大功能把信息传递到 

人类的各种活动中去。 

2.1.1内容与形式的分离:在HTML中,数据内容和表现形式是混在一 

起的。这样,当数据的表现形式需要改变时,文档更新的工作量就比较大。 

而对于XML文档而言,标记是包含信息的,这些信息对于数据的检索、描 

述将起到极大的简化作用。利用XML的这一特性,当数据的表现形式有所 

改变时,仅需修改从XML文档中分离出的用于描述效据表现形式的样式 

单就可以了。 

2.12良好的可扩展性:xML允许程序员制定自己的标记集,允许一个 

行业或某一个特定领域制定在本范圈内的通用标记集。 

2.13良好的跨平台移植性:XML语言可以定义各种数据,如文本、图 

■乃MYKI 

像、声音等。虽然这些数据的格式不同,但XML能通过一种用于交换数据 

格式的文件—xML文档,来处理由XML标注的各种数据,从而实现不同 

格式效据的跨平台交换。 

2.1A良好的自描述性:XML良好的自描述性使得其数据能够被不同 

的应用程序分析处理。 

2.2 XML在Web数据挖掘中的优势 

2.2.1实现异构数据的集成。因为XML是一种半结构化的数据模型。通 

过它可以和关系数据库中的属性一一对应起来。实施精确地查询与模型抽 

取,解决了搜索不兼容的数据库的问题。 

2.22易于数据交换。因为XML能够使不同来源结构化的数据很容易 

地结合在一起。客户与不同的数据源进行交互时,数据可能来自不同的数 

据库,它们都有各自不同的复杂格式。由于XML的自定义性及可扩展性, 

可以表达各种类型的数据,所以客户与这些数据库间只通过一种标准语言 

进行交互,即XML。客户收到数据后可以直接处理,也可以在不同数据库间 

传递。XML解决了数据的统一接口问题。 

2.2 3将计算负载从Web服务器转移到客户端。服务器只须发出同一 

个XML文件,XML将数据处理的主动权交给了客户,客户可根据自己的需 

求选择和制作不同的应用程序来处理数据,Web服务器所要做的只是尽可 

能准确、完善地将数据封装进XML文件后发送给用户。 

2.2A智能Web代理。根据个人用户的需要裁减信息内容的应用,有些 

客户取得数据并不是为了直接使用而是为了根据需要组织自己的数据库。 

2.25XML通过简单开放扩展的方式描述结构化的数据。XML描述的 

是数据本身,由于数据显示与内容分开,XML定义的数据允许指定不同的 

显示方式,使数据更合理地表现出来。本地的数据能够以客户配置、使用者 

选择或其他标准决定的方式动态地表现出来。通过XML,数据可以很快地 

更新。每当一部分数据变化后,不需要重发整个结构化的数据。 

3基于XML的Web数据挖掘 

由于XML具有很强大的数据描述和数据抽取的功能,利用XML技术 

可以实现Web页的半结构的数据进行描述形成一个半结构的数据模型, 

通过这个模型可以很好的实现数据挖掘。其实现过程可以通过以下四个步 

骤来实现:3.1标识数据源并把它映射成XHTML。3.2查找数据内的引用 

点。3.3映射成XML。3A合并结果并处理数据。 

流程如图2所示: 

实现过程:第1步得到XHTML格式的源信息。在大多数情况下,源信 

息是显而易见的,但是在动态环境下 

要抽取可用的、最可靠的和最稳定的 

信息源比较困难。确定了信息源后,将 

数据从HTML转换成XML,一般的高 

级语言(例如VC++6DJAVA等)都有 

专门的函数或类来实现。第2步查找 

数据的引用点。Web页面或者源 数据抽取 转化 

xHTML视图中的很多的信息都跟需 图2 

要无关,因而要求在XML树中找出一个特定区域,从中抽取需要的数据。 

对于更复杂的抽取,可能需要在单个页面上找出这些区域的若干实例,完 

成这一任务的最简单的办法通常是检查Web页面,然后使用xML。我们查 

找的数据一般都包含在同一个<table>元素下,在这个表中一般也会包含所 

需信息的关键词,记下观察到的内容,分析页面所生成的XHTML,并把该 

表作为引用点或锚。第3步将数据映射成XML。找到了这个锚,就可以创建 

实际抽取数据的代码,这个代码将以XSL文件的形式出现。XSL文件的目 

的是标识锚,指定如何从锚中获取正在查找的数据,并且用我们所需的格 

式构造一个xML输出文件。第4步合并与处理结果。如果只执行一次数据 

抽取,按照上述步骤已经完成。但是,通常需要反复执行抽取过程,最后 

把结果合并到单个XML数据文件中。可以再次使用XSL执行,也可以 

创建类的方法把在当前抽取中获得的数据合并到包含以前(下转83页) 

维普资讯

三建筑 击见划 没计量 三兰童i≤ Dc『7年第 期 

住宅楼工程常见质量问题及控制措施 

马金忠 

(抚顺大自然房地产开发公司,辽宁抚顺l13006) 

摘要:随着国家的发展和人民生活水平的不断提高,对衣食住行中的“住”的条件要求也越来越高。人们对工程建设质量要求也越来越 

严格。为满足广大居民的要求,住宅楼工程的设计和施工质量也在不断的提高和创新,但仍存在一定的问题。为从根本上解决住宅楼工程的设 

计和施工质量问题,必须从材料、施工、管理等各个环节严格把关,做到“百年大计,质量第一”。 

关键词:工程;质量;施工 

1模板工程 

线长度,门窗框与墙体间需用闭孔弹性材料嵌填,最后用防水密封 

模板工程施工中易出现轴线位移、标高、尺寸与图纸不符,拼 

膏填嵌饱满、密实。塑门窗固定件(1.5mm厚、25ram宽)要采用经 

接不严、变形,脱模剂使用不当,拆模时间控制不严等质量问题, 

防腐处理的金属件,且位置、标高和数量应符合规范要求。 

施工中应采取以下质量控制措施加以解决。首先,模板几何尺寸、 

7装饰工程 

标高要符合图纸要求,缝隙过大时要有合理的封堵措施,支撑点要 

装饰工程易出现粉刷层空鼓、裂缝,面层起泡、抹纹,外墙粉 

牢固,间距尺寸要合理,模内严禁有杂物。其次,要均匀涂刷脱模 

刷露底、接槎明显、不平整、不均匀,室内出现护角不牢,阴、阳 

剂,防止漏刷,严禁用废机油做脱模剂,拆模时间要根据不同施工 

角不方整等质量问题。施工时内墙体基层表面必须清理干净,刮刷 

部位的同条件试块强度进行推算。 

前一天要浇水湿润,刮刷至少要分二次进行,混凝土部位需要进行 

2钢筋工程 

凿毛处理,基层粉刷层达到50%-60%干燥后,方可进行罩面,罩面 

钢筋工程中易出现垫块、钢筋限位、撑角不到位、钢筋接头位 

不宜过厚,略显收水后压光。外墙要用白水泥掺胶打底,粉刷要均 

置、方式及箍筋弯钩角度不足等质量问题。施工中要严格执行见证 匀,接槎位置宜设在分格条、装饰线处,面积较大时要采取措施一 

取样、送样制度、加强现场目测、仔细查对质保资料。钢筋制作要 

次成型,严禁随意甩槎。室内墙面、柱面、梁底、门窗口的阳角处 

按照图纸和规范进行,绑扎时要严格校对,做好隐蔽验收。在抗震 

用水泥砂浆护角,用专用阳角器赶压光滑、平整、垂直,保证线脚 

地区一般要求箍筋弯钩为135。,平直长度大于箍筋直径的1O倍。 

顺直清晰。阴脚处设标筋,用靠尺吊垂直,再用方尺找准方正,最 

3混凝土工程 

后用阴角器赶压光滑,以达到顺直、方正。 

混凝土工程施工中易出现钢筋混凝土表面麻面、蜂窝、孔洞、 

8屋面工程 

漏筋等质量问题。在施工中要加强现场质量管理,原材料要过秤计 

屋面工程易出现山墙、女儿墙渗水,天沟积水、渗水,变形缝 

量,水应用流量计计量,严格遵守配合比及搅拌时间,混凝土振捣 

漏水,坡屋面渗水,防水层渗水等质量问题。在施工过程中,砖墙 

前,要仔细检查钢筋限位,钢筋保护层是否符合要求,是否正确留 

要预留凹槽及木砖,卷材收头压入凹槽内固定密封,天沟找平层坡 

置施工缝,施工缝部位注意基层清理,做好冲洗和接浆,混凝土要 

度要符合图纸要求,落水口处要低于四周20~30mm。变形缝在封闭 

有序振捣,防止漏振和振捣不均,钢筋密集区要配合人工振捣以达 

前要检查断开处是否有弯曲,能否满足变形的延伸,盖板搭接要符 

到密实。此外还要加强混凝土的养护,严格控制养护和拆模时间。 

合流水方向,安装是否牢固,接头、封口是否严密。屋面铺设咬口 

4砌体工程 

要严,有破损翘曲的瓦片要调换,确保排水顺畅。防水层施工前, 

墙身砌体工程施工中易出现砌体砂浆饱满度不足,留槎不规范, 

基层要清理干净,逐层检查合格后才能进行防水层施工,并做好记 

墙体表面任意留置沟槽,局部墙体裂缝等质量问题。在施工过程中 

录及签证。 

采取以下控制措施进行控制。首先,红砖要提前浇水湿润,铺浆不 9结束语 

要过长,严格按照三一砌筑法工艺施工。不准使用未经处理的隔日 

在实际工作中,其实建筑工程质量通病是可以消除的,关键是 

砂浆,及时进行竖缝的刮缝和塞缝,以减少外墙的渗漏点。其次, 

要提高各级领导和全体职工对消除质量通病重要意义的认识。只要 

正确掌握组砌方法,统一安排留槎,墙体转角处和纵横交接处应同 依靠建筑业全体职工牢固树立创精品工程和为用户服务的思想,通 

时砌砖,不能同砌而必须留槎时,应砌成斜槎,长度不小于高度的 力协作,加强施工管理,严格执行图纸及施工验收规范,精心施工, 

2/3。最后,做好现场协调,实现各工种间紧密配合,水、电管线预 

建筑质量通病就一定能够得到消除,工程质量水平一定能够得到提 

埋要与砌筑协同进行,避免墙体凿洞开槽,在易产生裂缝部位采取 高,也一定能够建造出住户满意的住宅楼工程。 

加固措施。 

5楼地面工程 

(上接14页】抽取数据的文档中。Web数据挖掘是一个周而往复的过程, 

楼地面工程施工中易出现板缝开裂,楼地面龟裂、空鼓、面层 

几次简单的数据抽取还没有完成数据挖掘的任务。要针对数据挖掘的特殊 

起皮、起砂和厨房间、卫生间、阳台等有地漏的地面倒泛水等质量 

性,不断在Intemet上进行数据的抽取,并将结果合并为XML数据文件。 

问题。施工时要合理安排工序,严格控制楼面施工荷载,在易产生 

4结论 

裂缝部位加设钢筋网片,在支座处设玻璃分格条,基层清理要彻底, 基于Web的数据挖掘对传统的数据挖掘提出了新的要求,具有更强的 

要提前浇水湿润,局部做好凿毛处理,底层回填要夯实,做好环刀 

挑战性。随着XML的出现为解决Web数据挖掘的难题带来了机会,也成为 

试验。水泥砂浆采用中粗砂,严格控制水灰比及面层压光时间,如 

现在研究的热点。今后Web数据挖掘研究方向应该着重在Web数据挖掘 

产生泌水现象时,严禁在表面撒干水泥。面层压光24h后,要注意 的内在机制的研究及其实现:Web知识库的动态维护、更新;半结构、结构的 

洒水养护至面层强度达到要求后方准上人。在楼地面施工前,要按 

文本数据、图形图像数据、多媒体数据的高效挖掘算法;web挖掘算法在海 

设计要求找坡,控制好卫生问、厨房间、阳台等部位的地面标高, 

量数据挖掘时的适应性和时效性以及专门用于知识发现的数据挖掘语言及 

并按要求做好蓄水试验。 其标准化和关联规则和序列模式在构造自组织站点的研究等方面。 

6门窗工程 

参考文献 

门窗工程易出现木门框翘曲、不方正、弯曲变形、表面粗糙, [11韩家威.数据挖掘[MI.北京:高等教育出版社,2001. 

门扇翘曲,开关不灵活,出现流坠、回弹、走扇,塑窗与墙体问填 

[2]Etzioni O.The World Wide Web:Quagmire or Gold Mine叨.Communica- 

嵌不规范等质量问题。施工前要做门窗厂家的跟踪核查工作,有质 

tions of ACM,1996,39(11):65-68. 

量缺陷的坚决不准使用,塑窗经二次试验合格后方可使用。木门框 

[3]Han Jiawei.Micheline K数据挖掘概念与技术IMI.北京:机械工业出版 

安装前要吊垂直,测量对角线相等后,再进行固定。对变形损坏的 

社.2001. 

要及时修整,注意成品保护,安装门扇前要校正框的垂直度,上、 

f4]韩家炜,孟小峰等.Web挖掘研究叫.计算机研究与发展,2001(4)'.407--410. 

下合页要同心同轴,安装牢固。塑窗固定前,要测量垂直度和对角 [51Sturm J.Developing XML solutions[M ̄Washing-ton:Microsoft Press,2000 


本文标签: 数据 数据挖掘 进行 施工 质量