首页技术日记正文内容

crawl工作流程

技术日记

更新时间：2026-04-04 09:54:26 67

admin 管理员组

文章数量: 1184232

2024年3月13日发(作者：伦勃朗光人物摄影)

Nutch主要分为两个部分：爬虫crawler和查询searcher。Crawler主要用于从网

络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查

找关键词来产生查找结果。两者之间的接口是索引，所以除去索引部分，两者之

间的耦合度很低。

Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置

在硬件平台上，例如将Crawler和Searcher分别放在两个主机上，这样可以提升

性能。

爬虫，Crawler：

Crawler的重点在两个方面，Crawler的工作流程和涉及的数据文件的格式和含

义。数据文件主要包括三类，分别是web database，一系列的segment加上index，

三者的物理文件分别存储在爬行结果目录下的db目录下webdb子文件夹内，

segments文件夹和index文件夹。那么三者分别存储的信息是什么呢？

Web database，也叫WebDB，其中存储的是爬虫所抓取网页之间的链接结构信息，

它只在爬虫Crawler工作中使用而和Searcher的工作没有任何关系。WebDB内

存储了两种实体的信息：page和link。Page实体通过描述网络上一个网页的特

征信息来表征一个实际的网页，因为网页有很多个需要描述，WebDB中通过网

页的URL和网页内容的MD5两种索引方法对这些网页实体进行了索引。Page

实体描述的网页特征主要包括网页内的link数目，抓取此网页的时间等相关抓取

信息，对此网页的重要度评分等。同样的，Link实体描述的是两个page实体之

间的链接关系。WebDB构成了一个所抓取网页的链接结构图，这个图中Page

实体是图的结点，而Link实体则代表图的边。

一次爬行会产生很多个segment，每个segment内存储的是爬虫Crawler在单独

一次抓取循环中抓到的网页以及这些网页的索引。Crawler爬行时会根据WebDB

中的link关系按照一定的爬行策略生成每次抓取循环所需的fetchlist，然后

Fetcher通过fetchlist中的URLs抓取这些网页并索引，然后将其存入segment。

Segment是有时限的，当这些网页被Crawler重新抓取后，先前抓取产生的segment

就作废了。在存储中。Segment文件夹是以产生时间命名的，方便我们删除作废

的segments以节省存储空间。

Index是Crawler抓取的所有网页的索引，它是通过对所有单个segment中的索引

进行合并处理所得的。Nutch利用Lucene技术进行索引，所以Lucene中对索引

进行操作的接口对Nutch中的index同样有效。但是需要注意的是，Lucene中的

segment和Nutch中的不同，Lucene中的segment是索引index的一部分，但是

Nutch中的segment只是WebDB中各个部分网页的内容和索引，最后通过其生

成的index跟这些segment已经毫无关系了。

Crawler工作流程：

在分析了Crawler工作中设计的文件之后，接下来我们研究一下Crawler的抓取

流程以及这些文件在抓取中扮演的角色。Crawler的工作原理主要是：首先

Crawler根据WebDB生成一个待抓取网页的URL集合叫做Fetchlist，接着下载

线程Fetcher开始根据Fetchlist将网页抓取回来，如果下载线程有很多个，那么

就生成很多个Fetchlist，也就是一个Fetcher对应一个Fetchlist。然后Crawler根

据抓取回来的网页WebDB进行更新，根据更新后的WebDB生成新的Fetchlist，

里面是未抓取的或者新发现的URLs，然后下一轮抓取循环重新开始。这个循环

过程可以叫做“产生/抓取/更新”循环。

指向同一个主机上Web资源的URLs通常被分配到同一个Fetchlist中，这样的

话防止过多的Fetchers对一个主机同时进行抓取造成主机负担过重。另外Nutch

遵守Robots Exclusion Protocol，网站可以通过自定义控制Crawler的

抓取。

在Nutch中，Crawler操作的实现是通过一系列子操作的实现来完成的。这些子

操作Nutch都提供了子命令行可以单独进行调用。下面就是这些子操作的功能描

述以及命令行，命令行在括号中。

创建一个新的WebDb (

admin db -create

将抓取起始URLs写入WebDB中 (

inject

根据WebDB生成fetchlist并写入相应的segment(

generate

根据fetchlist中的URL抓取网页 (

fetch

根据抓取网页更新WebDb (

updatedb

循环进行3－5步直至预先设定的抓取深度。

根据WebDB得到的网页评分和links更新segments (

updatesegs

对所抓取的网页进行索引(

index

在索引中丢弃有重复内容的网页和重复的URLs (

dedup

10.

将segments中的索引进行合并生成用于检索的最终index(

merge

Crawler详细工作流程是：在创建一个WebDB之后(步骤1), “产生/抓取/更新”

循环(步骤3－6)根据一些种子URLs开始启动。当这个循环彻底结束，Crawler

根据抓取中生成的segments创建索引（步骤7－10）。在进行重复URLs清除（步

骤9）之前，每个segment的索引都是独立的（步骤8）。最终，各个独立的segment

索引被合并为一个最终的索引index（步骤10）。

本文标签：网页抓取进行工作循环

版权声明：本文标题：crawl工作流程内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/p/1710331262a568069.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

crawl工作流程

更多相关文章

还在为安装PhotoShop发愁？这款网页版工具，打开浏览器就能用！

chrome浏览器实现进入网页自动全屏模式

网页端调用本地应用打开本地文件(PDF、Word、excel、PPT)

工作学习之计算机网络知识-安全设备

国标播放器-----国内最好的网页视频播放器(H.264,H.265播放器)

手把手教你学习基于oauth2.0协议——微信公众平台微信网页授权登录

linux 有序队列,linux 工作队列之schedule_delayed_work

5种实用网页刷新方法详解与应用场景

通过网页端保存ins图片的方法（谷歌浏览器）

Taskbar Groups：告别混乱，打造高效工作空间

网页上跳转直接添加QQ好友、加入QQ群

国产化加固笔记本电脑：工业级移动工作的新标杆

解决：打开 jupyter 时浏览器不能自动弹出，网页不显示问题

LoadRunner录制脚本时，浏览器打不开网页

谷歌（Google）浏览器显示内存不足，无法打开此网页

Google浏览器打开时自动弹出2345网页

IE浏览器打不开网页？其他浏览器却正常？原来是这些原因！

电脑用户必备技能：保存网页为图片的多种方法详解与实战代码

就业难，Java岗位：学历成了硬性要求，如何脱颖而出？

Java岗位招聘门槛提升，学历成为求职者的新挑战

发表评论

推荐文章

联想台式机一键恢复：实用技巧与按键位置解析

内存消耗大？一文解析如何管理SWF文件，提升电脑运行速度！

解决 macOS 中“无法验证开发者”的问题

磁盘被写保护解除方法，速速码住！_这张磁盘有写保护

DIY电脑配置入门篇（包含各cpu显卡天梯图对比）_cpu显卡搭配对照表

热门文章

✨自动关机神器！探索批处理脚本里的.bat文件关机代码

超小型游戏机，从0构建的硬软件生态，玩转超小游戏！

探索.NET Framework 2.0：揭秘其关键特性和如何在实际项目中应用

移动硬盘突然打不开了？别急，有办法解决_电脑打不开移动硬盘怎么办

DLL与LIB

安装远程连接软件TeamViewer的详细教程_teamviewer远程控制软件安装

Windows 7下网络打印机安装与共享指南

修复变砖IDE硬盘

对autorun.inf病毒免疫的原理_autorun.inf免疫

实芯HD音频驱动装不上？这些小技巧可以帮你轻松解决

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑