admin 管理员组文章数量: 1087652
2024年3月13日发(作者:如何制作网页的菜单)
中文分词技术及J E中文分词器
在N utc h中的运用与实现
口广西工商职业技术学院陶荣
【摘要】阐述中文分词技术,分析对比Lucene自带的分析
3_最少切分。最少切分就是要将一段话里面要求切出的词数
器,针对IE中文分词器进行研究,并将IE中文分词器在Nutch
中加以运用并改进,实现Nutch的中文分词。
是最少的。“请问你在做什么”最少切分可以得到“请问,你在,做
什么”,只切分出三个词。
上面三种方法可以相互结合组成一些分词方法。比如正向
最大匹配法和逆向最大匹配法组合起来就可以叫做双向最大
匹配法。
【关键词】中文分词技术Nutch搜索引擎
【中图分类号】G【文献标识码】A
【文章编号】0450—9889(2013)02C一0184—03
Nutch是一个建立在Lucene核心之上的Web搜索的实现,
Lucene为Nutch提供了文本索引和搜索的API。Nutch是一个基
于Lucene的完整网络搜索引擎解决方案,基于Hadoop的分布式
处理模型保证了系统的性能,类似Eclipse的插件机制保证了系
统的可客户化,而且很容易集成到自己的应用之中。相对于那些
商用的搜索引擎,Nutch作为开放源代码搜索引擎将会更加透
明,从而更值得大家信赖。
一
(二)基于语义理解的分词方法。基于语义理解的分词方法是
通过对上下文所提供的信息,对分词、句法、语法进行分析。它包
括总控部分、句法语义子系统、分子系统三个部分。这种方法试图
让计算机模拟人脑,使用大量的语言知识和信息,利用语法和语
义信息来处理分词的歧义。这类方法目前还处于研究阶段,实现
起来还有一定的困难。
(三)基于统计的分词方法。基于统计的分词方法也可称为无
字典分词算法或者概率统计法。在这种分词方法中,主要是利用
了上下文,相邻的字出现的次数越多,则越有可能是组成了一个
词。它是根据上下文中字组的信息的统计,计算字组相邻出现的
、
中分分词技术
目前,搜索引擎已经成为人们在网络上获取信息的重要的网
络服务工具。任何一个搜索引擎在采集到信息后都需要对信息进
行预处理和分词,而对中文信息进行处理则是中文搜索引擎最基
本的也是最重要的工作。中文与英文不一样,英文句子中的词是
以空格来间隔的,计算机对英文的分词没有任何困难,但是中文
概率。例如“你们,我们,这里,那里……”这些词在文中出现的次
数比较多,则可认为它们组成了一个词,可以从词中切分出来。
二、Lucene分析器
Lucene可以实现全文检索,而全文检索的基础是建立在索
引上的,而索引的基础是对文本的分析和词汇的切分。Lucene的
分析器默认主要是针对英文文档进行处理,最常用的分析器包括
SimpleAnalyzer、WhitespaceAnalyzer StopAnalyzer、 StandardAna-
lyzer。
的语句则不是以空格来进行分隔,它以多个词连接为一个语句,
人们在使用中文汉字的时候,是经过了长期的学习和积累才能理
解并使用它,而计算机并不是人,它无法理解中文的含义,要让计
算机理解中文的意思,那就必须涉及中文分词技术。目前的分词
方法主要有以下三类:
Lucene系统默认提供StandardAnalyzer分析器处理中文文
档。Lucene本身的StandardAnalyzer中文分词相当于一元分词 (一)基于字典匹配的分词方法。基于字典匹配的分词方法需
要一个分词词典的支持,分词词典的词汇应尽量齐全。它将一个
需要进行分析与切分的句子与分词词典进行词条的匹配,若匹配
成功,则将句子中的词进行切分并且输出,若匹配不成功则进行
1一gram。它只是将句子中的每个字分割出来,一个字就是一个语
汇单元。例如,用单字切分会将“我爱南宁”切分成“我I爱J南l
宁”;而不是我们希望的形式“我I爱f南宁”。它的结果是获得中
文单个字符,而不是真正的词汇分隔。这种分词方法不会损失任 进一步的操作。常用的几种词典分词方法如下:
1.正向最大匹配法。该算法的思想是从左向右取出不大于词
典最长的词条的词来进行匹配,若匹配成功,则将该词切分出来,
若匹配不成功,则去掉匹配的词中最后一个字,继续进行匹配,直
至匹配成功或句子为空。举个例子,“请问你在做什么”这句话采
用正向最大匹配法切分可得到“请问,你,在,做什么”。
2.逆向最大匹配法。该算法与正向最大匹配法正好相反,它
在句子中从右向左取出字符串与词典进行匹配。用逆向最大匹配
何索引信息,但造成的索引膨胀比增大,检索时得到的精度不高。
CJKAnalyzer是专门用于中文文档的分析器,是二分法分词
器,继承自org.apache.1ucene.analysis.Analyzer类。当切分“爱南宁”
会得到“我爱l爱南I南宁”。二元切分结果存在很大的冗余,建立
的索引屏障比比较大,并且由于检索过程也是同样的切分结果,
容易造成错误的结果排序在前,影响结果的有效性。
ChinesesAnaly zer分析器的功能与StandardAnalyzer分析器
法来分上面这句话可以得到“请问,你在,做,什么”。 在处理中文文本时基本一致,都是切分成单个的双字节中文字符。
版权声明:本文标题:中文分词技术及JE中文分词器在Nutch中的运用与实现 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1710332307a568107.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论