admin 管理员组文章数量: 1087675
python对中文段落进行分词分句及分标点符号
发现一个分句好方便的包
相关文档:/
github:
------------------------------------------------------------------------2021年1月25日更新------------------------------------------------
打脸了。。。我发现上面的代码分全是中文的段落才是最有效的,若有数字或英文会有问题的,如下:
结果:
啊,真难过,只能自己写分句了。
不过zhon还能分离标点符号和汉字也挺好的。如下:
结果:
但其实用 jieba.posseg(分词获取词性),也能轻松得到标点符号的,如下:
会发现标点符号的flag都是x
---------------------------------------------------------
较方便的分句方法:
from nltk.tokenize import RegexpTokenizer
def SplitSentence(content): #对中文段落进行分句tokenizer = RegexpTokenizer(".*?[。!?]") #就是以[]中的符号为标识分割的rst = tokenizer.tokenize(content)# listreturn rst
本文标签: python对中文段落进行分词分句及分标点符号
版权声明:本文标题:python对中文段落进行分词分句及分标点符号 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1697150891a262292.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论