admin 管理员组

文章数量: 1184232


2024年3月13日发(作者:bim培训)

江 汉 大 学 毕 业 论 文(设 计)

综 述 名 称

姓 名

学 号

文 献 综 述

全文搜索引擎的设计与实现

cccc

2

2013年 4月 8日

一、绪论

目前定制和维护搜索引擎的需求越来越大,对于处理庞大的网络数据,如何

有效的去存储它并访问到我们需要的信息,变得尤为重要。Web搜索引擎能有很

好的帮助我们解决这一问题。

本文阐述了一个全文搜索引擎的原理及其设计和实现过程。该系统采用B/S

模式的Java Web平台架构实现,采用Nutch相关框架,包括Nutch,Solr,Hadoop,

以及Nutch的基础框架Lucene对全网信息的采集和检索。文中阐述了Nutch相

关框架的背景,基础原理和应用。

Nutch相关框架的出现,使得在java平台上构建个性化搜索引擎成为一件简

单又可靠的事情。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世

界一流的Web搜索引擎。目前国内有很多大公司,比如百度、雅虎,都在使用

Nutch相关框架。由于Nutch是开源的,阅读其源代码,可以让我们对搜索引擎

实现有更加深刻的感受,并且能够更加深度的定制需要的搜索引擎实现细节。

本文首先介绍了课题研究背景,然后对系统涉及到的理论知识,框架的相关

理论做了详细说明,最后按照软件工程的开发方法逐步实现系统功能。

二、文献研究

2.1 Nutch技术

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行的搜索引擎所

需的全部工具。包括全文搜索和Web爬虫。

尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目

却在下降。并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索

为其谋取商业利益.这显然 不利于广大Internet用户。

Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎,

Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所

有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在

一个特定的位置。除此之外, 有的搜索引擎依照网站所付的 费用, 而不是根据

它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有 动


本文标签: 搜索引擎 实现 框架