admin 管理员组

文章数量: 1086019


2024年3月13日发(作者:excel函数常用公式)

IKAnalyzer3.2.8中文分词器介绍

2012年3月2日

1. IKAnalyzer简介

IKAnalyzer是一个开源基于JAVA语言的轻量级的中文分词第三方工具

包,从2006年推出已经经历了三个较为完整的版本,目前最新版本为3.2.8,

它基于lucene为应用主体,但是,它也支持脱离lucene,成为一个独立的面

向JAVA的分词工具。

2. IKAnalyzer结构图

3. IKAnalyzer特性

a. 算法采用“正向迭代最细粒度切分算法”,支持细粒度和最大词长两种分词

方式,速度最大支持80W字/秒(1600KB/秒)。

b. 支持多子处理器分析模式:中文、数字、字母,并兼容日文、韩文。

c. 较小的内存占用,优化词库占有空间,用户可自定义扩展词库。

d. 扩展lucene的扩展实现,采用歧义分析算法优化查询关键字的搜索排列组


本文标签: 支持 算法 优化 分析 函数