基于Nutch和Solr的基础教育垂直搜索引擎的实现-Linux大棚

admin 管理员组

文章数量: 1184232

2024年3月13日发(作者：vab常用代码)

ＩＳＳＮ　１００９—３０４４　

Ｅ—ｍａｉｌ：ｋｆｙｊ＠ｃｃｃｃ．ｎｅｔ．ｃｎ　

ｈｔｔｐ：／／ｗｗｗ．ｄｎｚｓ．ｎｅｔ．ｃｎ　

ＣｏｍｐｕｔｅｒＫｎｏｗ￣ｅｄｇｅａｎｄＴｅｃｈｎｏｌｏｇｙ电脑知识与技术　

Ｖｏ１．８，Ｎｏ．４，Ｆｅｂｒｕａｒｙ　２０１２　

Ｔｅｌ：＋８６—５５１—５６９０９６３　５６９（）９６４　

基于Ｎｕｔｃｈ和Ｓｏｌｒ的基础教育垂直搜索引擎的实现　

王小正，侯青　

（南京晓庄学院数学与信息技术学院，江苏南京２１　１　１７１）　

摘要：该文描述了一个基于Ｎｕｔｃｈ和Ｓｏｌｒ实现的基础教育垂直搜索引擎，给出了系统实现框架，其可以为中小学师生提供专业的资　

源检索服务。　

关键词：Ｎｕｔｃｈ；Ｓｏｋ；基础教育；搜索引擎；垂直搜索　

中图分类号：ＴＰ３９３　文献标识码：Ａ　文章编号：１００９—３０４４（２０１２）０４—０９７５—０２　

Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｏｆ　Ｅｌｅｍｅｎｔａｒｙ　Ｅｄｕｃａｔｉｏｎ　Ｖｅｒｔｉｃａｌ　Ｓｅａｒｃｈ　Ｅｎｇｉｎｅ　Ｂａｓｅｄ　ｏｎ　Ｎｕｔｃｈ　ａｎｄ　Ｓｏｌｒ　

ＷＡＮＧ　Ｘｉａｏ—ｚｈｅｎｇ．Ｈｏｕ　Ｑｉｎｇ　

（Ｃｏ￣ｅｇｅ　ｏｆＭａｔｈｅｍａｔｉｃｓ＆Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ，Ｎａｎｊｉｎｇ　Ｘｉａｏｚｈｕａｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，Ｎａｎｊｉｎｇ　２１１１７１，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｔｈｉｓ　ｐａｐｅｒ　ｄｅｓｃｒｉｂｅｓ　ｔｈｅ　ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｏｆ　ｄｅｍｅｎｔａｒｙ　ｅｄｕｃａｔｉｏｎ　ｖｅｒｔｉｃａｌ　ｓｅａｒｃｈ　ｅｎｇｉｎｅ　ｂａｓｅｄ　ｏｎ　Ｎｕｔｃｈ　ａｎｄ　Ｓｏｌｒ，ａｎｄ　ｉｖｅｓｇ　ｔｈｅ　

ｓｙｓｔｅｍ　ａｒｃｈｉｔｅｃｔｕｒｅ，ｗｈｉｃｈ　ｃａｎ　ｐｒｏｖｉｄｅ　ｐｒｏｆｅｓｓｉｏｎａｌ　ｒｅｓｏｕｒｃｅｓ　ｓｅａｒｃｈ　ｓｅｒｖｉｃｅ　ｆｏｒ　ｔｈｅ　ｔｅａｃｈｅｒｓ　ａｎｄ　ｓｔｕｄｅｎｔｓ　ｏｆｐｒｉｍａｒｙ　ａｎｄ　ｓｅｃｏｎｄａｒｙ　ｓｃｈｏｏｌｓ．　

Ｋｅｙ　ｗｏｒｄｓ：Ｎｕｔｃｈ；Ｓｏｌｒ；ｅｌｅｍｅｎｔａｒｙ　ｅｄｕｃａｔｉｏｎ；ｓｅａｒｃｈ　ｅｎｇｉｎｅ；ｖｅｒｔｉｃａｌ　ｓｅａｒｃｈ　

计算机和网络技术的发展使信息的发布与共享不再受时间、空间的限制，同时也给我们带来了“信息过载”的问题。面对信息　

的海洋，用户试图通过浏览器来发现信息已经变得非常困难，往往花费很多时间却所获甚少。Ｇｏｏｇｌｅ、百度等综合性搜索引擎虽然　

强大，但人们在使用这些搜索引擎的时候，经常发现搜索出的资料也难以尽如人意，排在搜索结果前面的许多资源，根本不是自己　

所需要的。　

本文从基础教育应用的需求考虑，实现了一个利用Ｎｕｔｃｈ和Ｓｏｌｒ的建立面向基础教育领域的垂直搜索引擎，帮助广大中小学校　

师生及时获取基础教育领域相关知识。　

１相关技术介绍　

１．１　Ｎｕｔｃｈ简介　

Ｎｕｔｅｈ是基于Ｌｕｃｅｎｅ的开源搜索引擎，是一个完善的应用程序，实现了抓取、索引、检索的一体化。由于商业搜索引擎允许竞　

价排名，这样导致索引结果并不完全是和站点内容相关的，而Ｎｕｔｃｈ搜索结果能够给出一个公平的排序结果，这使得Ｎｕｔｃｈ对垂直　

搜索、学术搜索和政府类站点的搜索等领域来说是个好选择。　

１．２　Ｓｏｌｒ简介　

Ｓｏｌｒ现在是Ｌｕｅｅｎｅ的一个子项目。Ｓｏｌｒ是一个开源的企业级搜索服务器，底层使用易于扩展和修改的Ｊａｖａ来实现，服务器通　

信使用标准的ＨＴｒＰ和ＸＭＬ。主要特性有：强大的全文检索功能，高亮显示检索结果，动态集群，数据库接口和电子文档（Ｗｏｒｄ，　

ＰＤＦ等）的处理，具有高度的可扩展，支持分布搜索和索引的复制。　

１．３　ＩＫＡｎａｌｙｚｅｒ介绍　

ＩＫＡｎａｌｙｚｅｒ是一开源的、基于ｊａｖａ开发的轻量级中文分词工具包。它是以开源项目Ｌｕｅｎｃｅ为应用主体，结合词典分词和文法　

分析算法的中文分词组件。采用了特有的“正向迭代最细粒度切分算法”，支持细粒度和最大词长两种切分模式。　

１．４实现方案　

在该搜索引擎实现方案中，虽然Ｎｕｔｃｈ本身具有搜索功能，但把Ｓｏｌｒ作为处理搜索结果的源和人口，能够有效地减轻对Ｎｕｔｃｈ的　

搜索负担，让Ｎｕｔｃｈ负责它最擅长的工作：抓取（ｃｒａｗｌｉｎｇ）、提取（ｆｅｔｃｈｉｎｇ）和解析（ｐａｒｓｉｎｇ）容。使用Ｓｏｌｒ作为搜索后端，可以充分使　

用ＳｏｌｒＳｅｒｖｅｒ的搜索特性：查询拼写检查（ｓｐｅｌｌ—ｃｈｅｃｋ），搜索提醒（ｓｕｇｇｅｓｔｉｏｎ），数据复￥￣（ｄａｔａ—ｒｅｐｌｉｃａｔｉｏｎ）及查询缓存等。由于Ｓｏｌｒ本　

身中文分词功能较弱，因此引入ＩＫＡｎａｌｙｚｅｒ来增强其中文分词功能。该搜索引擎框架可概括为Ｎｕｔｃｈ＋Ｓｏｌｒ＋ＩＫＡｎａｌｙｚｅｒ。　

２具体实现方法　

系统环境：Ｕｂｕｎｔｕ　１０．０４　

所需软件及安装顺序：ｊｄｋ一６ｕ２６一ｌｉｎｕｘ—ｉ５８６＿ｂｉｎ、ｔｏｍｃａｔ一６．ｔａｒ．ｇｚ、ｎｕｔｃｈ一１．４．ｔａｒ．ｇｚ　ａｐａｃｈｅ—ｓｏｌｒ—ｃｏｒｅ一３．５．０．ｊａｒ、ＩＫＡｎａｌｙｚｅｒ３．２．８．ｊａｒ。　

收稿日期：２０１２—０１—０５　

作者简介：王小ａ￣（１９７４一），男，江苏南京人，讲师，硕士，研究方向为分布式应用；侯青，女，助讲，硕士。　

本栏目责任编辑：梁书　＊信息技术与课程奠台…　９７５　

Ｃｏｍｐｕｔｅｒ　Ｋｎｏｗｌｅｄｇｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ电脑知识与技术　

所有软件安装过程略去，在软件配置方面需要特别注意的有以下几个地方：　

１）ｔｏｍｃａｔ，ｃ０ｎｆ下得ｓｅｒｖｅＬｘｍｌ文件中添加“ＵＲＩＥｎｃｏｄｉｎｇ＝”ＵＴＦ一８…’，使得ｔｏｍｃａｔ服务器支持中文。　

２）为了是ｔｏｍｃａｔ支持ｓｏｌｒ，需把ｓｏｌｒ安装目录下的ｓｏｌｒ．ｗａｒ拷贝到ｔｏｍｃａｔ／ｗｅｂａｐｐｓ文件夹下。　

３）在ｔｏｍｃａｔ／ｃｏｎｆ录下新建Ｃａｔａ／ｉｎａ／ｌｏｃａｌｈｏｓｔ目录，再在此目录下新建ｓｏｌｒ＿ｘｍｌ文件，内容如图１。　

（？ｘｌｌ１ｌ　ｖｅｒｓｉｏｎ＝＂ｉ，ｏＨ　ｅｎｃｏｄｉｎｇ＝　Ｆ一８　？）　

一

第８卷第４期（２０１２￣－２月）　

＜Ｃｏｎｔｅｘｔ　ｄｏｃＢａｓｅ＝　／ｈｏｍｅ／ｔｏｍｃａｔ。６１ｗｅｂａｐｐｓ／ｓｏｌｒ．ｗａｒ　ｄｅｂｕｇ＝＂（｝　ｃｒｏｓ：ｓＣｏｎｔｅｘｔ＝　ｔｒｕｅ　

＜Ｅｎｖｉｒ：ｏｎｍｅｎｔ　ｎａｍｅ＝　ｓｏｌｒ／ｈｏｍｅ　ｔｙｐｅ＝￣ｊａｖａ。ｌａｎｇ．Ｓｔｒｉｎｇ　ｖａｌｕｅ＝　／ｈｏｍｅ／ｔｏｍｃａｔ一　

６ｔｗｅｂａｐｐｓ／ｓｏｋ／ｃｏｒｅＯ　ｏｖｅｒｒｉｄｅ＝＂ｔｒｕｅ　，＞　

＜，／Ｃｏｎｔｅｘｔ＞　

图１　

４）通过浏览器运行ｓｏｌｒＩ￣ｗｅｂ客户端后，在ｔｏｍｃａｔ／ｗｅｂａｐｐｓ目录下自动生成ｓｏｌｒ目录。这时把ｓｏｌｒ安装目录下的　。　。ｏＺ件夹拷　

贝到刚刚生成的ｔｏｍｃａｔ／ｗｅｂａｐｐｓ／ｓｏｌｒ文件夹下。并且把ｎｕｔｅｈ安装目录下的ｓｃｈｅｍａ．ｘｍｌ文件拷贝到ｔｏｍｃａｔ／ｗｅｂａｐｐｓ／ｓｏｌｒ／ｃｏｎｆ文件夹　

下。　

５）最后为了在ｓｏｌｒ搜索中支持ＩＫＡｎａｌｙｚｅｒ中文分词，还需做以下设置：拷贝ＩＫＡｎａｌｙｚｅｒ３．２．８．ｊａｒ到ｔｏｍｃａｔ／ｗｅｂａｐｐｓ，ｓｏｌｒ／ＷＥＢ—ＩＮＦ／　

ｌｉｈ，并且还需在ｔｏｍｃａｄｗｅｂａｐｐｓｌｓｏｌｒ／ｃｏｎｆ／ｓｃｈｅｍａ．ｘｍｌ文件中添加设置内容如图２。　

～

＜ａｎａｌｙｚｅｒ　ｔｙｐｅ＝＂ｉｎｄｅｘ　

＜ｔｏｋｅｎｉｚｅｒ　ｄａｓｓ＝　ｏｒｇ．ｗｉｔｅａ．ａｎａｌｙｚｅｒ．５０静。ＩＫＴｏｋｅｎｉｚｅｒＦａｃｔｏｒｙ＂　

￣ｓＭａ￣ＷｏｒｄＬｅｎｇｔｈ＝“ｔｒｕｅ　》　

＜ｆｉ｜ｔｅｒ　ｃ｜ａｓＳ＝　！；ｏｌｒ．ＳｔｏｐＦＵｔｅｒＦａｃｔｅｒｙ　ｉｇｎｏｒｅＣａＳｅｗ’＇ｔｒｕｅ　ｗｏｒｄｓ＝”ｓｔｏｐｗｏｒｄｓ．ｔｘｔ”　

ｅｎａｂｌｅＰｏｓｉｔｉｏｎｉｎｃｒｅｍｅｎｔｓ＝”ｔｒｕｅ”，＞　

《ｉｌｌｔｅｒ　ｅｌ：ａｓｓ：　ｓｏ垂ｒ．　

《，ａｎａｌｙｚｅｒ＞　

～

ａｃｔｏｒｙ“　＞　

＜ａｎａｌｙｚｅｒ　ｔｙｐｅ＝＂ｑｕｅｔｙ　＞　

＜ｔｏｋｅｎｉｚｅｒ　Ｃｌａｓｓ＝＂ｏｒｇ．ｗｌｔｅａ．ａｎａｌｙｚｅｒ．Ｓｏ｜ｒ．ＩＫＩＦｅｋｅｎ￣ｅｒＦａｃｔｏｒｙ　

ｉｓＭａ．ｘＷｏ：ｒｄＬｅｒ￣ｇｔｈ：＝＂ｔｒｕ：ｅ”／＞　

《豫ｔｅｒ　ｃｌａｓｓ：　５ｏ静　

ｉｇｎｏｒｅＣａｓｅ＝　ｔｒｕｅ”ｗａｒｄｓ：”ｓｔｏｐｗｏｒｄｓ．ｔｘｔ”　

ｅｍｅｎｔｓ＝＂ｔｒｕｅ　，》　

＜ｆｉｔｔｅｒ　ａｌａｓｓ　ｓｏ垂ｒ，ＬｏｗｅｒＣａｓｅＦｉ｜ｔｅｒＦａｃｔｏｒｙ”　》　

＜ｆｉｌｔｅｒ　ｃ｜ａｓｓ：　§ＤＩｒ．Ｅｎｇ｜ｉｓｈＰｏｒｔｅｒＦｉ｜ｔｅｒＦａｃｔｏｒｙ＂ｐｒｏｔｅＥｒｅｄ＝　ｐｒｏｔｗｏｒｄｓ．ｔｘｔ　／》　

＜ｆｉｌｔｅｒ　ｃＪａｓｓ＝＂ｓｏ｜ｒ．１ｉｅｍｏｖｅＤｕｐｉｉｃａｔｅｓＴｏｋｅｎＦｉｌｔｅｒＦａｃｔｏｒｙ　，＞　

（４＇ａｎａｆｙｚｅｒ＞　

图２　

至此，搜索引擎的框架搭建已完成。接下来通过进一步地设置使其成为面向基础教育领域的垂直搜索引擎。主要设置环节如　

下：　

１）网络爬虫　

Ｎｕｔｃｈ的爬虫有两种方式：１、爬行特定网（Ｉｎｔｒａｎｅｔ　ｃｒａｗｌｉｎｇ）。针对少数网站进行，用ｃｒａｗｌ命令。２、爬行整个互联网。使用低　

层的ｉｎｊｅｃｔ，ｇｅｎｅｒａｔｅ，ｆｅｔｃｈ和ｕｐｄａｔｅｄｂ命令，具有更强的可控制性。　

为了实现抓取特定范围内的与基础教育资源相关的信息，设定爬虫的网址主要为一些基础教育类网址，如ｋ１２学科网、北大附　

中、上海基础教育资源网等。同时为了充分挖掘这些特定网站的教育信息，对爬行命令ｃｒａｗ１）的参数进行设定。其中一ｄｅｐｔｈ设定　

为１０左右，一ｔｏｐＮ设定为１０００。　

２）分词处理　

为了仅抓取与基础教育的有关信息，这里对关键词库进行了扩充，在原有词库的基础上，增加了与基础教育相关的词条。实现　

方法在ｔｏｍｃａｔ／ｗｅｂａｐｐｓ／ｓｏｌｒ／ＷＥＢ－ＩＮＦ／ｌｉｂ／ＩＫＡｎａｌｙｚｅｒ３．２．８．ｊａｒ包中添加文件ｍｙｄｉｃｔ．ｄｉｃ。该文件内容包含需要扩充的词条，同时在ＩＫ—　

Ａｎａｌｙｚｅｒ．ｃ　．ｘｍｌ文件中修改设置如下：“＜ｅｎｔｒｙ　ｋｅｙ＝”ｅｘｔ—ｄｉｃｔ”＞／ｍｙｄｉｃｔ．ｄｉｃ；＜／ｅｎｔｒｙ＞”。另外为了减少无效信息的检索，还需对ｔｏｍｃａｔ／　

ｗｅｂａｐｐｓ／ｓ０ｌｒ／ｃｏｎｆ／ｓｃｈｅｍａ．ｘｍｌ文件进行修改：“ｉｓＭａｘＷｏｒｄＬｅｎｇｔｈ＝”ｔｒｌ３ｅ””，即使用最大词长切分模式。　

至此，基于Ｎｕｔｃｈ和Ｓｏｌｒ的基础教育垂直搜索引擎已初步实现并能正常运行。　

３结束语　

由于该系统还处于试验阶段，很多地方还需不断完善。如单机爬行操作很耗时，需进一步构建分布式搜索引擎。Ｎｕｔｃｈ的核心　

部分目前已经被重新用Ｍａｐ　Ｒｅｄｕｃｅ实现了。Ｍａｐ　Ｒｅｄｕｃｅ是一个分布式的处理模型，最先是从Ｇｏｏｇｌｅ实验室提出来的。因此，基　

于Ｎｕｔｃｈ构建分布式搜索引擎并不是一件很难的事。随着该基础教育垂直搜索引擎的不断完善，将能够提供强大的基础教育资源　

专业信息检索能力，有助于广大师生及时获取基础教育相关知识并为他们提供专业指导。　

参考文献：　

【１］张斌，周尔宁．基于Ｎｕｔ＆的分布式纺织垂直搜索引擎研究『Ｊ１．电脑知识与技术，２００９，５（２１）：５７８５—５７８７．　

［２】申晋．基于Ｌｕｃｅｎｅ和Ｎｕｔ＆的林业垂直搜索引擎的研建【Ｊ］．农业网络信息，２００８（４）：１６—１９．　

【３杨晓江，３】李丽娟，田俊华等．面向基础教育的Ｗｅｂ资源垂直服务体系研究　中国远程教育，２００６（７）：５３—５７．　

［４】徐健，张智雄．基于Ｎｕｔｃｈ的Ｗｅｂ网站定向采集系统［Ｊ１．现代图书情报技术，２００９（４）：１—６．　

９７６　…信息技术与ｉ喇矗奠含　ｍ　本栏目责任编辑：梁书　

本文标签：搜索引擎搜索信息

版权声明：本文标题：基于Nutch和Solr的基础教育垂直搜索引擎的实现内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1710332291a568106.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

基于Nutch和Solr的基础教育垂直搜索引擎的实现

更多相关文章

优化注册表与IE首页：迈向顺畅的Flash体验之路

揭秘Dell VistaSERVER 2008 OEM激活过程：正确获取与使用密钥教程！

Bin文件新视角：用Keil轻松制作的秘籍

透视EXE的内部构造：借助objdump反汇编工具揭秘

Win10小白也能掌握：查看电脑配置中的显卡步骤详解

一招在手，Windows 10内窥电脑显卡的秘密

The Comprehensive Step-by-Step Guide for Activating Dell 2008 Server & Vista via OEM Key

实用指南：从现在开始，让Windows 10搜索框自动开启Microsoft Edge并指向你偏好的搜索引擎

告别未知-通过设备管理器全面了解你PC的内存装备！

电脑小白也能懂！从设备管理器开始，解读你的显卡标识

魔兽世界API揭秘：快速提升你的游戏开发实力

魔兽世界API接口：探索游戏背后的魔法技术

H3C路由器配置详解：轻松打造专业网络环境

H3C路由器基础设置解析：提升网络效率的秘诀

Office OneNote 2007：跨越文本与视觉的笔记革命

QQ群信息大搜索：掌握模拟登录，数据收集轻松搞定

“告别百度网盘提取码的繁琐，掌握智能破解技巧！”

系统音量信息：解锁声音控制的隐藏功能

有关VISTASERVER2008 OEM激活的几个问题_dell 2008 oem key

网络优化新方案：探索TPLink与Netcore路由器的桥接模式

发表评论

推荐文章

默认网关、DNS、DHCP_dns 家庭 默认

基于Hadoop的热点事件分析系统_hadoop 新闻分析

移动硬盘无法读取与修复策略：原因分析与解决方案,

推荐一款安卓手机一键Root工具_安卓手机root工具

在Linux中查找IP地址_lnxip

热门文章

当d3d11on12.dll不见了，这样就能让您的程序恢复正常运行！

硬盘修复大法：拯救被遗忘的SWF与Flash动画

解决编程困扰：如何处理SystemVolumeInformation的权限问题？

华硕adolbook触摸板不响应？立即执行这5个解决策略！

破解Windows XP密码方法

BIOS错误信息解读

高效远程控制另一台电脑的3种方法，提升工作效率！_如何利用qq远程控制另一台电脑

清除浏览器历史记录的多种方法

两台主机如何利用一根网线传输文件_两台电脑利用一根网线传输文件

对autorun.inf病毒免疫的原理_autorun.inf免疫

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

默认网关、DNS、DHCP_dns 家庭默认