admin 管理员组

文章数量: 1086019


2024年6月30日发(作者:异步fifo第一个数据读两次)

第20卷.第1 期 

2010年儿月 

计算机技术与发展 

O0M UTER TECHN0U0GY AND DEVEL 0PM匪NT 

Vo1.20 No.11 

Nov. 2010 

基于Shark—Search和Hits算法的主题爬虫研究 

罗林波 ,陈 绮 ,吴清秀2 

(1.海南大学信息科学技术学院,海南海口570228; 

2.海南软件职业技术学院,海南琼海571400) 

摘要:主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark— 

Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的 

优点结合起来即将基于网页内容评价和基于网页链接关系算法结合起来判断待下载 的优劣,并实现了一个主题爬虫。 

这种新策略正好弥补了两个算法各自的不足。通过与Shark一 ̄arch算法和His算法实现的主题爬虫对比,发现用新算 t

法实现的主题爬虫查准率比这两种算法高。 

关键词:主题爬虫;爬行策略;垂直搜索引擎 

中图分号:11P393 文献标识码:A 文章编号:1673—629x(2O10)l1—0076—04 

Research on Topical Crawler of Shark。。Search Algorithm 

and Hits Algorithm 

LUO Lin—box,CHEN Qi ,WU Oing-xiu2 

(1.College of Information Science and Technology,Hainan University,Haikou 570228,China; 

2.Hainan Software Profession Institute,Qionghm 571400,China) 

Abstract:Topical crawler is the eore technology to achieve vertical search engine.There are two important crawling algorithms to be in— 

troduced:content—based evaluation of Shark—Search algorithm and link—based relationships Hits algorithrm.It analyzed their respec— 

tire advantages and disadvantages and pmposodfl newtopical crawling strategythatistommhinethetwodgofithrnswhichinclude c0n— 

tea'lt—based evaluation and link—based relationships,to judge whether ttrl to be downloaded is good or bad,and implements a topical 

crawler.This new crawling strategy can make up for the deficiencies of the two a ̄orithms.With the Shark—Search algorithm and the 

algorithmoftheHits contrast.itisinfe ̄edthatthe effectofusigtnhenewtopical crawlig alngorithm

cy is better than those t、Jl,o algorithms. 

Keywords:topical crawler;crawling strategy;vertical search engine 

which reachesthedegreeof scours— 

O 引 言 

当前互联网正以惊人的速度不断发展,据2010年 

第二十五次中国互联网报告显示:2009年我国网页总 

切需要一种更专业的搜索技术,将网上的信息更好地 

展现出来。于是垂直搜索引擎便诞生了,它被视为解 

决传统搜索引擎局限性的一种潜在方案,垂直搜索引 

擎已成为研究的热点L2J。 

数已达336亿,较上一年增长108%,73.3%网民通过 

搜索引擎获取信息…1。web信息的急速膨胀,在给人 

垂直搜索是面向特定主题(领域)的搜索引擎,是 

搜索引擎的细分和延伸,其特点就是“专、精、深”。主 

题爬虫(Topical Crawler)又称聚焦爬虫(Focused 

们提供丰富信息的同时,又使人们面临挑战,一方面网 

上的信息多种多样、丰富多彩,而另一方面用户通过传 

统搜索引擎来获取信息却越来越困难。因此,人们迫 

收稿日期:2010—03—09;修回日期:2010一O6一l2 

Crawler)[3J,是垂直搜索引擎中核心的部分,就是根据 

定的网页内容和链接分析算法过滤与预定主题无关 

的链接,保留与主题相关的链接并将其放入待抓取的 

URL队列中;然后根据一定的策略从队列中选取下一 

基金项目:海南省自然科学基金资助项目(609003);海南大学科研 

项目(hd09xm84) 

作者简介:罗林波(1982一),男,湖北黄冈人,硕士研究生,研究方向 

步要抓取的网页URL,并重复上述过程,直到满足系 

统的某一条件时停止。 

主题爬虫以何种策略抓取web信息,成为近年来 

主题爬虫研究的焦点之一【引。 

为数据挖掘;陈绮,副教授,博士,硕士生导师,研究方向为数据挖 

掘。 

第1l期 罗林波等:基于Shark—Search和Hits算法的主题爬虫研究 ・77・ 

1主题爬行策略 

目前常用的主题爬行策略主要分两大类 』:一种 

是基于内容评价的爬行策略 J,以De Bra、Herseovici 

等人的研究Fish—Search ̄ ]及Shark~Semrch 等算法 

为代表;另一种是基于web链接评价的策略,以 

PageRank[ ]和HitsE 。]等算法为代表。 

基于内容评价的爬行策略,主要是计算网页内容 

以及锚文本等与预定主题的相似度来评价待下载链接 

价值的高低,并依此决定其爬行策略,相似度的评价通 

常采用如下公式: 

(硼 ×wik) 

Sun(d ,d )=— =k==l========= (1) 

^/(∑叫 )(∑ ) 

其中d 为新文本的特征向量,dj为第J类主题的 

中心向量, 则为特征向量的维数,w 为向量的第K 

维。 

基于web链接评价的策略主要是依据网页之间 

的链接引用关系来判断网页之间的重要程度。目前的 

Web链接分析大多基于以下两个条件: 

(1)从网页A指向网页B的超级链接是网页A作 

者对网页B的推荐; 

(2)如果一条超链接将网页A和网页B相互连接 

起来,则网页A和网页B一般有共同的主题[u]。 

下面分别介绍Shark—Search算法和Hits算法。 

1.1 Shark—Search算法 

在Fish—Search算法的基础上,Hersovici提出了 

Shark—Search算法。Shark—Search算法对FiSh— 

Search的一个重要改进就是利用所谓的“相似性引擎” 

对网页与主题的相关性进行模糊评分。子结点的主题 

相关性评分受3个因素影响:锚文本、锚文本附近的文 

字以及对父结点相关性的继承。Shark—Search算法 

中对主题相关性的计算利用向量空间模型,取0~1之 

间的实数,URL列表中的每一个URL的得分由(1)式 

计算。 

Potential—score(child—ur1)= *inherited(child— 

ur1)+(1一 )*neighborhood(child—ur1) (系数7<1) 

(2) 

当父结点与主题相关时,从父结点继承到的相关 

性评分inherited(child—ur1)由预定主题q和父结点网 

页的相似性计算得到,其中current—url为child—url结 

点的父节点,8为衰减因子且小于1: 

inherited(child—ur1)= 

sier(q,current—ur1),if(sim(q,current—ur1))> 

… 

1 6.ihnerited(current—ur1),otherwise ¨ 

邻近链接neighborhood(child—ur1)的评分与锚文 

本及锚文本附近的文字有关。根据锚文本,以及锚文 

本附近的文字与主题q的相似性sim(q,anchor)和sin1 

(q,anchor—text)可以简单地计算出邻近链接的主题相 

关性得分: 

neighborhood(child—ur1)=卢。sim(q,anchor)+(1 

)・sim(q,anchor—text) (4) 

1.2 Hits算法 

Hits算法是由Kleinberg提出的基于超链接关系 

判断网页重要性的算法,目前主要用于搜索结果排序 

方面,引入了Authority(权威)页面和Hub(中心)页面 

两个重要的概念。通常好的Hub页面指向许多好的 

Authority页面;好的Authority页面总是被许多好的 

Hub页面所指向,这种Hub与Authority页面的相互加 

强关系,可用于Authority页面的发现,这就是Hits算 

法的基本思想。 

Hits首先根据查询的关键词确定一网络子图G 

(V,E)(V为网路子图的结点集,E为边集),然后通过 

迭代计算得出每一个网页的权威值和中心值,具体步 

骤可分为三步: 

(1)通过搜索引擎获得与主题最相关的K个网页 

(K=200)的集合,称之为root集。 

(2)通过链接分析扩展root集,扩展后得到的集合 

称之为base集,扩展方法是对于root集中任一网页P, 

加入所有P中所包含的链接到root集,加人最多d(d 

50)个指向P的链接到base集。 

(3)计算base集中所有页面的中心值和权威值: 

若G中有7/个结点,设 维向量a、h,其中口(i)、 (i) 

分别表示结点i的权威值和中心值。算法如下:用1初 

始化向量n、h,a0=1,h0=1,然后进行I,O操作: 

I操作:n ( )= hH(W) (5) 

(", )∈E 

o操作:h ( )= 口H(W) (6) 

(4)规范化口(“),h( ),a ( )= a ( ) 

’ 

(7) 

重复计算上面的I、o操作和规范化操作,直到 

“(“),h( )收敛。 

2算法分析及改进 

以Fish—Search为基础的爬行策略其优点是具有 

较好的理论基础,而且计算比较简单,但是这类方法忽 

略了链接结构信息,这类在距离相关页面集较近的地 

78・ 计算机技术与发展 第2O卷 

方搜索时表现出良好的性能l也 ;但由于页面中的文本 

式(4)计算每条链接的neighborhood(child—ur1),将边cur. 

rent—urI_>child—url加入G—Edges,将child—url作为节 

点加入G—nodes; 

信息缺乏“全局性”,很难反映web的整体情况,使得 

这类网络蜘蛛普遍存在“近视”的缺点[13]。 

Hits算法是一种依赖于查询(query—dependent) 

的主题提取算法。它首先利用搜索引擎从整个web 

中选取与用户查询相关的部分网页来构成web链接 

结构子图,然后在此链接结构子图上进行相应分析计 

算,由于Web链接结构具有自组织性,在互联网中具 

} 

通过搜索引擎将指向链接current—url的最多d(d 

:50)个链接加入G—nodes中,并将相应的边加入G— 

Edges; 

} 

有相同或耗关的主题内容的网页之间往往通过超链接 

If(下载网页数量达到200){ 

相互连接形成一个个web社区(conwnunits)H J,因此 

链接结构子图代表了互联网上某一主题的web社区, 

当用户查询的主题较宽(甚至是多个主题)时,链接结 

构子图可能因多个子主题形成多个相对紧密的web 

社区。因为Hits算法是一种基于迭代的算法,紧密链 

接区域中的页面的权值必定增加,从而影响了结果,这 

种现象通常被称为“主题漂移”(Topicdrift) 5J现象。 

针对此,文中将Shark—Search算法与Hits算法结 

合,在计算待下载url的价值时除了依据网页内容、锚 

文本和锚文本附近的文字外还引入了依据Hits算法 

计算出的网页的权威值,既弥补了前者缺乏Web全局 

性之不足,又消除了后者容易产生“主题漂移”的现象。 

则计算待下载url值的公式变为: 

Potential—score(child—ur1)=A*inherited(child—ur1)+ 

B・neighborhea(child ur1)+C・a ( ) (8) 

其中系数A、B、C为正数且满足A+B十C=1, 

其他参数的意义同前。 

如果将扩充后的所有连接都加入下载队列必导致 

下载队列过于臃肿从而影响爬虫的性能,故设定一个 

阈值 ,只有潜在价值大于 的链接才加入下载队列 

中。 按如下公式计算得出: 

p=∑ur1 /n (9) 

:1 

新算法描述如下: 

(1)通过关键字匹配从馊索弓l擎获取前k个链接 

并给链接赋初始值,然岳将链接加入待下载队列 

WateQueue中o 

(2)while(WateQueue不为空)i 

While(保存的网页数量没有达到n1) 

从WateC ̄mue中取出得分最商的链接current—url下 

载该链接的网页current—page并计算出该网主题相关度 

值inherited(child—ur1); 

If(inherited(child—uii):,a){ 

将cunoen!url加入G~Ilodf:k ̄', : 

保存网页current—page; 

提取网页c1. ̄Trent—pa《e 如≮一条镀援c}llld, ,绞公 

按顺序重复执行上述公式(5)~(7)直到收敛,计算 

出每个连接的权威值ai(v)和中心值h(i); 

l 

利用公式(8)计算G—nodes中每个链接的得分,并利 

用公式(9)计算出B; 

将得分大于B的链接加入WateQueue中; 

} 

其中G—nodeS为网络子图中的结点集,C—E出 

为边集,K为首次通过搜索因为获取的连接数且必须 

K> ,为了防止重链死链一般取200~300间,m为 

root集中url数量,一般取150~200间,a为主题判断 

的阈值。主题相关性判断采用的是向量空间模型方法。 

新算法流程图如图1所示。 

图I算法流程图 

第1l期 罗林波等:基于Shark-Search和Hits算法的主题爬虫研究 

908. 

・79・ 

3试验及分析 

根据上述思想,设计了一个主题爬虫。评价聚焦 

[3J Menczer F,Pant G,Srinivasan P.Topical web crawlers:evalu— 

ating adaptive algorithms[J].ACM Transactions on Internet 

Technology,2004,4(4):378—419. 

爬虫系统性能指标主要有查准率、查全率[引。这里主 

要计算爬虫系统抓取网页的查准率,图2是对比结果。 

[4]Menczer F,Pant G.Evaluating Topic—Driv一 

an Web Crawlers[C]//Proceedings of the 

24th Annual Intemational ACM SIGIR Con— 

ference O11 Research and Development in In— 

formation Retrieva1.New York,NY,USA: 

[s.n.],2001:9—12. 

[5] 欧阳柳波,李学勇.专业搜索引擎搜索策略 

综述[J].计算机工程,2004(7):32—33. 

[6] 

黄萱菁,吴立德,石崎洋之,等.独立于语种 

的文本分类方法[J].中文信息学报,2000, 

14(6):1—7. 

[7] 

Bra D P,Post R.Searchign for arbitrary in— 

formation in the Www:the fish—search for 

mosaic[C]//Second www Conference. 

图2测试结果 

Chicago:ACM Press,1994:45—51. 

上图表明,Hits算法随着下载的网页数量的增加, 

[8]Herseovici M,jacov M,SMaarek Y.The Shark—Search Algo— 

查准率一直下降,因为随着抓取网页的增加“主题漂 

rithm~An Application:Tailored web Site Mappign[J].oCm 

移”现象越来越重,Shark—Search随着下载网页增加 

puter Networks and ISDN Syst ̄o_s,1998,30:317—326. 

趋于稳定,但没考虑网页的全局性查准率不高,而新算 

【9]Page L,Brin S,Motwani R.The PageRank Citation 山Ilg: 

BringOrdertOtheWeb[R].Stanford,CA:StanfordUniversi. 

法随着下载网页增多趋于稳定的同时也保持了较高的 

ty,1998. 

查准率,且效果明显好于Hits和Shark—Search算法。 

[10]Kleinberg J.Authoritative Sources in A Hyperlinked Environ— 

ment[J].Journal oftheACM,1999,46(5):604—632. 

4结束语 

[11]康平波,田永鸿,黄铁军.智能化网页资源收集工具的设计 

文章在深入研究Shark—Search算法和Hits算法 

与实现[J].计算机工程,2004,30(4):88—92. 

后,针对前者没有考虑链接关系缺乏Web全局性之不 

[12]Mencaer F.Complmeenting Search Engines with Online Web 

足和后者没考虑网页内容容易产生“主题漂移”的现 

Minign Agents[J].Decision Support Systems,2003,35(2): 

象,提出了将两种算法相结合的思路即文本和链接相 

195—212. 

结合的爬行策略,结果表明新策略效果明显,新算法在 

[13]DiligentiM,CoetzeeFM,LavcI ̄nce S,et a1.Focused crawlign 

提高查准率的同时也增加了算法的复杂性。如何在提 

usign context graphs[C]//Proecedings of the 26th Interna— 

tional oCnference 013.Very I.,lfl ̄e Databases(VLDB一2000). 

高查准率的同时降低复杂度,将是下步研究的重点。 

Caim,Egypt:[s.n.],2000. 

[14]Hake G W,Lawrence S,GileS C L,et a1.Sel=f—Organization 

参考文献: 

and Idnetification of Web oCmmunitise[J].IEEE Computer, 

[1]CCNIC.第25次中国互联网络发展状况统计报告[EB/ 

2002,35(3):66—71. 

OL].2010.http://www.cnnic.cn/uplsodfilse/p&f/2010/1/ 

[15]Menczer F,Pant G,Ruiz M E,et a1.Evaluatign topic—driven 

15/101600.pdf.(℃NIC. 

web crawlers[C]//Proceedigns of the 24th mual Intema— 

[2]Panidis A,Poulos G K C,Pitas I.Combining Text and Link 

tional ACM SIGIR Conference on Research and Development 

Analysis for Focused Crawling——an Application for Veixical 

in Ifnormation Retrieva1.New York,NY,USA:[S.n.j, 

& arch Engines[J].Information System,2007,32(6):886一 

2001:241—249. 

(上接第75页) 

porttmistic newtorsk[C]//In:Proc.of the 2006 SIGCOMM 

mouth.edu/. 

Workshopon Challenged Networks.Pisa:ACM,2006:213— 

[16]UCSD wireless topology discovery projeCt[EB/OL].2004 

220. 

http://sysnet.ucsd.edu/wtd/. 

[15]Crawdadproject[EB/OL].2008.http://crawdad.C8.dart・ 


本文标签: 主题 链接 网页 算法 爬虫