结巴分词使用教程

Noya ·
更新时间:2024-11-14
· 863 次阅读

一、pip安装

         注:pip是python自带的(没有安装过python的同学可以先安装python)

         1、pip添加源(已经添加过的请忽略此步骤)

          windows下在个人用户目录下(c:\users\[自己的电脑用户名]\)下新建文件夹 pip,再新建文件pip.ini  ( ini后缀为配置文件类型 ) 在ini文件中配置源地址

          

           pip.ini中的内容如下

[global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple [install] trusted-host=mirrors.aliyun.com

      2、安装结巴分词:

           打开命令行输入以下语句

           pip install jieba

      3、安装结果

           

      4、安装paddlepaddle-tiny

           pip install paddlepaddle-tiny==1.6.1

二、结巴代码示例

      1、 新建一个.py文件,然后用pycharm打开,将以下代码复制进去运行即可:

# encoding=utf-8 import jieba jieba.enable_paddle()# 启动paddle模式。 0.40版之后开始支持,早期版本不支持 strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"] for str in strs: seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式 print("Paddle Mode: " + '/'.join(list(seg_list))) seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print("Full Mode: " + "/ ".join(seg_list)) # 全模式 seg_list = jieba.cut("我来到北京清华大学", cut_all=False) print("Default Mode: " + "/ ".join(seg_list)) # 精确模式 seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式 print(", ".join(seg_list)) seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式 print(", ".join(seg_list))

       2、可能遇到的问题(刚刚pip下载的那些包找不到)

              原因:pycharm配置的python可能不是刚刚使用pip下载的对应的python

              解决方法:在命令行中输入pip -V如下图(就可以看到pip对应python的安装路径)

              

              之后在pycharm中配置python(点击file->settings)

              

              继续按如下图所示进行操作  (将刚刚pip对应python的安装路径中找到python.exe添加即可)     

                   

       3、运行结果

              

       


作者:逮仔



结巴分词 分词 教程

需要 登录 后方可回复, 如果你还没有账号请 注册新账号