Python第三方库jieba库与中文分词全面详解

Tia ·

更新时间:2024-11-13

· 1364 次阅读

一、什么是jieba库

二、jieba分词原理

三、jieba库支持的三种分词模式

1.精确模式

2.全模式

3.搜索引擎模式

四、jieba库常用函数

五、jieba实操

练习一（jieba.lcut）精确模式

练习二（jieba.lcut(s,cut_all=True) ）全模式

练习三（jieba.lcut_for_search）搜索引擎模式

练习四（jieba.add_word(w)）增加新词

总结

一、什么是jieba库

jieba是优秀的中文分词第三方库，由于中文文本之间每个汉字都是连续书写的，我们需要通过特定的手段来获得其中的每个词组，这种手段叫做分词，我们可以通过jieba库来完成这个过程。

二、jieba分词原理

jieba库的分词原理是利用了一个中文词库，将待分词的内容与分词词库对比，通过图结构和动态规则划分方法找到最大概率的词组。除了分词，jieba还提供增加自定义中文单词的功能。

三、jieba库支持的三种分词模式 1.精确模式

将句子最精确地分开，适合文本分析；

2.全模式

把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；

3.搜索引擎模式

在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词

注：对中文分词来说，jieba库只需要一行代码即可。英文文本不存在分词问题

四、jieba库常用函数 函数描述

jieba.lcut(s)	精确模式，返回一个列表值
jieba.lcut(s,cut_all=True)	全模式，返回一个列表值
jieba.lcut_for_search(s)	搜索引擎模式，返回一个列表值
jieba.add_word(w)	向分词词典中增加新词w

五、jieba实操

首先你需要安装jieba库
pip install jieba

练习一（jieba.lcut）精确模式

jieba.lcut(s)是最常用的中文分词函数，用于精确模式，将字符串分割成等量的中文词组。

import jieba
ls = jieba.lcut("我愿意穿过璀璨繁星")
print(ls)

练习二（jieba.lcut(s,cut_all=True) ）全模式

jieba.lcut(s,cut_all=True)用于全模式，将字符串的所有分词可能列出来，冗余最大。

import jieba
ls = jieba.lcut("人面不知何处去,桃花依旧笑春风", cut_all=True)
print(ls)

练习三（jieba.lcut_for_search）搜索引擎模式

jieba.lcut_for_search该模式首先执行精确模式，然后在对其中长词进一步分获得最终结果

import jieba
ls1 = jieba.lcut("仰天大笑出门去我辈岂是蓬蒿人")
ls = jieba.lcut_for_search("仰天大笑出门去我辈岂是蓬蒿人")
print(ls1)
print(ls)

练习四（jieba.add_word(w)）增加新词

import jieba
ls = jieba.lcut_for_search("仰天大笑出门去我辈岂是蓬蒿人")
print(ls)
jieba.add_word("蓬蒿人")
ls1 = jieba.lcut("仰天大笑出门去我辈岂是蓬蒿人")
print(ls1)

小结：精确模式因为不产生冗余，最为常用。

总结

到此这篇关于Python第三方库jieba库与中文分词的文章就介绍到这了,更多相关Python jieba库与中文分词内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网！

jieba 中文分词分词 Python

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

HTML 字符集

Kamiisa 2020-04-27

703

Vue请求java服务端并返回数据代码实例

Rena 2020-12-17

666

Html/Css(新手入门第一篇必看攻略)

Noella 2020-11-04

993

ASP.NET中实现导出ppt文件数据的实例分享

Bunny 2021-05-19

567

Docker部署Python应用的方法实现

Madge 2023-07-22

687

一文详解Python中多进程和进程池的使用方法

Serafina 2023-07-24

338

Python中常用功能的实现代码分享

Kathy 2023-07-24

934

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

Python进阶之利用+和*进行列表拼接

Tani 2023-07-24

656

Python进阶之列表推导与生成器表达式详解

Tanisha 2023-07-24

1394

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

Python人工智能构建简单聊天机器人示例详解

Kathy 2023-08-28

1370

Python ttkbootstrap的介绍与使用教程

Nora 2023-08-28

1592

python中os模块和sys模块的使用详解

Pandora 2023-08-28

600

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座