深入研究中文分词利器——Jieba

Ona ·
更新时间:2024-11-13
· 537 次阅读

jieba的分词 jieba安装后的位置:
在这里插入图片描述
可以修改里面的dict.txt文本,或者把自定义的词典直接改到这个目录,当jieba初始化的时候会创建索引。jieba.load_userdict()其实也是把额外的词典放加入的默认的词典里的。

使用jieba.load_userdict()的方式:
在这里插入图片描述
在这里插入图片描述
使用前没有把“区块链分开”,使用后就分开了。
还有另一种方法是直接修改默认的词典:
在这里插入图片描述
但是需要删除缓存,则运行原来的代码,jieba会重新构建:
在这里插入图片描述
效果如下:
在这里插入图片描述
参考:
jieba加载自定义大词典(100MB)太慢的问题:
https://www.jianshu.com/p/dbaa4421b4ce

jieba词性标注

jieba的词性,比如x代表字符串:
https://blog.csdn.net/bozhanggu2239/article/details/80157305

jieba提取关键字 使用tf-idf的方法 使用text rank的方法
作者:林子要加油



jieba 中文分词 分词

需要 登录 后方可回复, 如果你还没有账号请 注册新账号