admin 管理员组

文章数量: 1184232


2024年4月24日发(作者:activities的形容词)

php 提取中文词语

可以使用正则表达式来匹配中文字符,然后提取中文词语。例如:

$pattern = '/[x{4e00}-x{9fa5}]+/u'; // 匹配中文字符

$str = '这是一段中文文本';

preg_match_all($pattern, $str, $matches);

print_r($matches[0]);

输出结果为:

Array

(

[0] => 这是一段中文文本

)

2、使用中文分词工具

中文分词工具可以将中文句子分成单个词语,然后再进行筛选和

处理。常用的中文分词工具有 jieba、snownlp 等。例如使用 jieba:

require_once 'vendor/'; // 加载 jieba

use FukuballJiebaJieba;

use FukuballJiebaFinalseg;

Jieba::init();

Finalseg::init();

$str = '这是一段中文文本';

$words = Jieba::cut($str);

print_r($words);

- 1 -

输出结果为:

Array

(

[0] => 这是

[1] => 一段

[2] => 中文

[3] => 文本

)

3、使用中文词典

可以使用中文词典来提取中文词语。常用的中文词典有搜狗词库、

哈工大的 LTP 词库等。

- 2 -


本文标签: 词语 提取 使用 词典 工具