jieba分词关键字含英文和特殊字符的处理方法

Ruth ·

更新时间:2024-11-10

· 694 次阅读

1.默认情况

语句中关键字在含有英文和特殊字符时(machine-1234)，使用jieba往往将我们的关键词分割的非常零碎，比如：

# 默认情况
import jieba
str1 = "查找machine-1234的产品说明书"
for w in jieba.cut(str1):
    print(w)
# 运行结果
>>>查找
>>>machine
>>>-
>>>1234
>>>的
>>>产品
>>>说明书

2.利用自定义字典

通常情况下，我们可以加载预定义字典来包含词库里不存在的词，以达到正确分词的效果

# 利用用户自定义字典
import jieba
str1 = "查找machine-1234的产品说明书"
jieba.load_userdict("./external_dict/machines.txt")
for w in jieba.cut(str1):
    print(w)
# 运行结果
>>>查找
>>>machine-1234
>>>的
>>>产品
>>>说明书

3.利用正则表达式

但是，面对成千上万需要定义的关键字时(比如：machine-1到machine:b-123:*:*robot)，我们倾向于找到关键词的特定模式，通过利用正则表达式的方法，先提取关键词，再利用jieba.add_word()动态修改字典，这是一个更有效的方法。

import re
import jieba
str1 = "查找machine-1234的产品说明书instruction:*:*:yyyy:2020"
# 动态添加词组
spec_words = re.findall('[-.*:a-zA-Z0-9]+', str1)
for word in spec_words:
    jieba.add_word(word, tag='nz')
# 修改jieba包init.py中正则表达式
jieba.re_han_default = re.compile('(.+)', re.U)
for w in jieba.cut(str1):
    print(w)
# 运行结果
>>>查找
>>>machine-1234
>>>的
>>>产品
>>>说明书
>>>instruction:*:*:yyyy:2020

作者：EdwardDa

jieba 方法关键字关键特殊字符字符

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

Java 发送邮件

Phyllis 2021-04-01

879

Node.js 函数

Rae 2021-03-22

852

Maven NetBeans

Tesia 2021-06-27

898

.Net Core使用Socket与树莓派进行通信详解

Helen 2020-08-06

550

Laravel 中使用简单的方法跟踪用户是否在线(推荐)

Serwa 2020-03-20

874

ASP.NET中实现导出ppt文件数据的实例分享

Bunny 2021-05-19

567

docker网卡的IP地址修改方法总结

Rae 2023-07-22

1847

docker命令中必须加上sudo的问题解决方法

Rhoda 2023-07-22

1038

Elasticsearch/Kibana密码设置方法

Hester 2023-07-22

1081

docker查询日志并输出到文件的方法

Grace 2023-07-22

1029

docker容器/etc/hosts文件修改方法

Vanna 2023-07-22

1279

docker容器连接宿主机redis与mysql的配置方法

Peony 2023-07-22

1975

Docker镜像之不同服务器间迁移方法大全

Dorothy 2023-07-22

1993

docker容器使用内存大小限制方法

Dulcea 2023-07-22

493

在Linux中列出Systemd下所有正在运行的服务的方法指南

Zandra 2023-07-22

507

一文详解Python中多进程和进程池的使用方法

Serafina 2023-07-24

338

VMware克隆虚拟机并重新设置IP和主机名的实现方法

Kathy 2023-08-08

194

使用nginx.exe时闪退的原因和解决方法

Olivia 2023-08-08

694

阿里云服务IIS搭建Web网站外网无法访问的解决方法

Elina 2023-08-08

897

ssh报错nokeyalg的解决方法(关于低版本连接高版本ssh)

Jacinthe 2023-08-08

339

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座