admin 管理员组

文章数量: 1087652


2024年3月13日发(作者:如何制作网页的菜单)

中文分词技术及J E中文分词器 

在N utc h中的运用与实现 

口广西工商职业技术学院陶荣 

【摘要】阐述中文分词技术,分析对比Lucene自带的分析 

3_最少切分。最少切分就是要将一段话里面要求切出的词数 

器,针对IE中文分词器进行研究,并将IE中文分词器在Nutch 

中加以运用并改进,实现Nutch的中文分词。 

是最少的。“请问你在做什么”最少切分可以得到“请问,你在,做 

什么”,只切分出三个词。 

上面三种方法可以相互结合组成一些分词方法。比如正向 

最大匹配法和逆向最大匹配法组合起来就可以叫做双向最大 

匹配法。 

【关键词】中文分词技术Nutch搜索引擎 

【中图分类号】G【文献标识码】A 

【文章编号】0450—9889(2013)02C一0184—03 

Nutch是一个建立在Lucene核心之上的Web搜索的实现, 

Lucene为Nutch提供了文本索引和搜索的API。Nutch是一个基 

于Lucene的完整网络搜索引擎解决方案,基于Hadoop的分布式 

处理模型保证了系统的性能,类似Eclipse的插件机制保证了系 

统的可客户化,而且很容易集成到自己的应用之中。相对于那些 

商用的搜索引擎,Nutch作为开放源代码搜索引擎将会更加透 

明,从而更值得大家信赖。 

(二)基于语义理解的分词方法。基于语义理解的分词方法是 

通过对上下文所提供的信息,对分词、句法、语法进行分析。它包 

括总控部分、句法语义子系统、分子系统三个部分。这种方法试图 

让计算机模拟人脑,使用大量的语言知识和信息,利用语法和语 

义信息来处理分词的歧义。这类方法目前还处于研究阶段,实现 

起来还有一定的困难。 

(三)基于统计的分词方法。基于统计的分词方法也可称为无 

字典分词算法或者概率统计法。在这种分词方法中,主要是利用 

了上下文,相邻的字出现的次数越多,则越有可能是组成了一个 

词。它是根据上下文中字组的信息的统计,计算字组相邻出现的 

中分分词技术 

目前,搜索引擎已经成为人们在网络上获取信息的重要的网 

络服务工具。任何一个搜索引擎在采集到信息后都需要对信息进 

行预处理和分词,而对中文信息进行处理则是中文搜索引擎最基 

本的也是最重要的工作。中文与英文不一样,英文句子中的词是 

以空格来间隔的,计算机对英文的分词没有任何困难,但是中文 

概率。例如“你们,我们,这里,那里……”这些词在文中出现的次 

数比较多,则可认为它们组成了一个词,可以从词中切分出来。 

二、Lucene分析器 

Lucene可以实现全文检索,而全文检索的基础是建立在索 

引上的,而索引的基础是对文本的分析和词汇的切分。Lucene的 

分析器默认主要是针对英文文档进行处理,最常用的分析器包括 

SimpleAnalyzer、WhitespaceAnalyzer StopAnalyzer、 StandardAna- 

lyzer。 

的语句则不是以空格来进行分隔,它以多个词连接为一个语句, 

人们在使用中文汉字的时候,是经过了长期的学习和积累才能理 

解并使用它,而计算机并不是人,它无法理解中文的含义,要让计 

算机理解中文的意思,那就必须涉及中文分词技术。目前的分词 

方法主要有以下三类: 

Lucene系统默认提供StandardAnalyzer分析器处理中文文 

档。Lucene本身的StandardAnalyzer中文分词相当于一元分词 (一)基于字典匹配的分词方法。基于字典匹配的分词方法需 

要一个分词词典的支持,分词词典的词汇应尽量齐全。它将一个 

需要进行分析与切分的句子与分词词典进行词条的匹配,若匹配 

成功,则将句子中的词进行切分并且输出,若匹配不成功则进行 

1一gram。它只是将句子中的每个字分割出来,一个字就是一个语 

汇单元。例如,用单字切分会将“我爱南宁”切分成“我I爱J南l 

宁”;而不是我们希望的形式“我I爱f南宁”。它的结果是获得中 

文单个字符,而不是真正的词汇分隔。这种分词方法不会损失任 进一步的操作。常用的几种词典分词方法如下: 

1.正向最大匹配法。该算法的思想是从左向右取出不大于词 

典最长的词条的词来进行匹配,若匹配成功,则将该词切分出来, 

若匹配不成功,则去掉匹配的词中最后一个字,继续进行匹配,直 

至匹配成功或句子为空。举个例子,“请问你在做什么”这句话采 

用正向最大匹配法切分可得到“请问,你,在,做什么”。 

2.逆向最大匹配法。该算法与正向最大匹配法正好相反,它 

在句子中从右向左取出字符串与词典进行匹配。用逆向最大匹配 

何索引信息,但造成的索引膨胀比增大,检索时得到的精度不高。 

CJKAnalyzer是专门用于中文文档的分析器,是二分法分词 

器,继承自org.apache.1ucene.analysis.Analyzer类。当切分“爱南宁” 

会得到“我爱l爱南I南宁”。二元切分结果存在很大的冗余,建立 

的索引屏障比比较大,并且由于检索过程也是同样的切分结果, 

容易造成错误的结果排序在前,影响结果的有效性。 

ChinesesAnaly zer分析器的功能与StandardAnalyzer分析器 

法来分上面这句话可以得到“请问,你在,做,什么”。 在处理中文文本时基本一致,都是切分成单个的双字节中文字符。 


本文标签: 分词 方法 匹配 进行