admin 管理员组

文章数量: 1087675

python对中文段落进行分词分句及分标点符号

发现一个分句好方便的包

相关文档:/

github:    

------------------------------------------------------------------------2021年1月25日更新------------------------------------------------

打脸了。。。我发现上面的代码分全是中文的段落才是最有效的,若有数字或英文会有问题的,如下:

结果:

啊,真难过,只能自己写分句了。

 

不过zhon还能分离标点符号和汉字也挺好的。如下:

结果:

但其实用 jieba.posseg(分词获取词性),也能轻松得到标点符号的,如下:

会发现标点符号的flag都是x

---------------------------------------------------------

较方便的分句方法:

from nltk.tokenize import RegexpTokenizer
def SplitSentence(content): #对中文段落进行分句tokenizer = RegexpTokenizer(".*?[。!?]") #就是以[]中的符号为标识分割的rst = tokenizer.tokenize(content)# listreturn rst

 

本文标签: python对中文段落进行分词分句及分标点符号