自然语言处理（NLP）：08 PyTorch深度学习之TextCNN短文本分类

Rebecca ·

更新时间:2024-09-21

· 695 次阅读

本章节主要研究内容：基于PyTorch 深度学习工具来完成短文本分类

知识点 业务需求文本分类应用场景、技术方案以及挑战技术架构文本分析词向量 CNN 原理 tensorboardX 可视化项目实战：基于TextCNN短文本分类，主要从数据预处理、构建此表、Embedding、模型训练、tensorboardX可视化以及在线服务几个重要的环境进行学习 文本分类应用场景

文章分类服务对文章内容进行深度分析，输出文章的主题一级分类、主题二级分类及对应的置信度，该技术在个性化推荐、文章聚合、文本内容分析等场景具有广泛的应用价值.

新闻分类

根据文本描述的内容方向，针对新闻媒体的文章做自动分类，例如军事类、农业类、体育类、娱乐类等多种类别方向

文本审核

定制训练文本审核的分类模型，如判断文本中是否有交易、涉黄涉赌小广告等违规描述类型的内容

电商评论分类

电商业务可根据用户对商品的评价内容维度，做物流类、服务类、产品类等问题描述方向的自动分类

舆情监控

通过对需要舆情监控的实时文字数据流进行情感倾向性分析，把握用户对热点信息的情感倾向性变化

下面时在整个新闻个性化推荐领域文本分类的数据内容
在这里插入图片描述

那么，我们接下来就一个真实的案例给大家介绍如何通过深度学习来对新闻文本进行分类

文本分类技术方案以及挑战

文本分类作为文本理解的基本任务、能够服务于大量应用（如文本摘要、情感分析、推荐系统等等），更是长期以来学术界与工业界关注的焦点.

(1)文本分类处理方案：

采取人设定特征（词袋、词性标注、树核等）或者ML/DNN对文本进行表达（朴素贝叶斯、SVM）。

(2)具体来说分为以下几种：

词嵌入向量化：Word2vec、FastText等；卷积神经网络特征提取：Test-CNN、Char-CNN等；上下文机制：Text-RNN、BiRNN、RCNN等；记忆存储机制：EntNet、DMN等；注意力机制：HAN等

（3）短文本处理难点

短文本由于内容简短，易于阅读和传播，被民众广泛使用，在新闻标题、社交媒体信息和短信中随处可见，但是内容简短、缺失会引起数据稀疏，与段落或者文章不同，短文本并不总能观察出句法，且短文本存在的多义和错误往往使内容不清楚，难以理解语义，导致模型分类没有足够特征进行类别判断，分类任务困难

import numpy as np
import pandas as pd
import torch
import jieba
print('numpy.version = ',np.__version__)
print('pandas.version = ',pd.__version__)
print('torch.version = ',torch.__version__)
print('jieba.version = ',jieba.__version__)

numpy.version =  1.16.2
pandas.version =  0.23.4
torch.version =  1.0.1.post2
jieba.version =  0.39

技术方案选型 运行环境准备

GPU显存：16G（GPU环境下训练深度学习模型非常快）／CPU环境：12G （训练模型慢）

Python版本：3.7

依赖库：
numpy 1.13.3
jieba 0.39
torch 1.x
pandas 0.23x
tqdm
sklearn

在这里插入图片描述

分类器选择

对于多分类问题，可以使用softmax函数作为分类器，最小化交叉熵（Cross Entropy）

传统机器学习文本分类算法

深度学习文本分类算法

特征提取

基于深度学习方法 (基于word2vec):

将所有词（或词频>阈值的词）组成一个词表，得到word2index字典和index2word字典；将词映射为index，并且进行padding，然后通过词对应的index对词向量矩阵进行Lookup，得到当前文本对应的word2vec；使用FastText、CNN、等模型在word2vec的基础上进行特征提取。 深度学习工具

这里基于PyTorch深度学习工具，TextCNN 模型训练

模型在线预测

对于大型项目在线服务功能，我们需要使用JAVA或者C++、Go 进行Web 服务部署，对于我们中小型项目我们采用Flask Web 框架进行部署

处理流程 原始文本数据分析以及可视化图表展示文本预处理：分词、数据离散化表示构建词表：构建、文本词统一长度向量化表示 Embedding : 根据词index 获取词向量、随机或者预训练词向量初始化单词的Embedding 向量模型训练：CNN、效果评估分类器：softmax 获取文本对应类别最大概率在线服务部署-多模型投票
多模型融合: 预测时，将多个模型的预测值的均值作为最终的预测结果 在线服务预测

http://127.0.0.1:5000/v1/p?q=昆明拟规定乘地铁禁止手机外放声音

文本数据分析 词云展示关键词提取中文文本分类方法 词向量介绍 引入外部向量 训练自己业务向量 CNN 文本分类原理

《Convolutional Neural Networks for Sentence Classification》

CNN 论文模型 CNN 论文优化以及实验 TextCNN 架构以及工作机制 tensorboardX 分类效果 TextCNN

$tensorboard --logdir 08-25_14.54

在这里插入图片描述

项目实战

文本分类项目主要基于深度学习来完成。这里采用CNN完成短文本的分类，采用PyTorch 深度学习工具。

$ tree -L 2
.
├── api.py
├── config_file
├── data
│   ├── ckpts
│   ├── data
│   ├── log
├── data_processing.py
├── dataset.py
├── docs
├── images
├── main.py
├── models
│   ├── TextCNN.py
├── notebook
├── static
│   ├── css
│   ├── img
│   └── js
├── templates
│   └── index.htm
└── utils.py

data 训练数据、模型存储以及日志记录、词向量 data_processing.py 数据预处理 notebook 技术方案、数据分析jupyter-notebook 文件以及词向量生成 dataset.py 自定义PyTorch数据集类 docs 深度学习文本分类论文以及课件 notebook 数据分析 config_file 训练参数文件 models 定义模型文件，例如：TextCNN,RCNN 等 main.py 程序入口 api.py static,templates 在线服务程序 预处理 构建词表 Embedding 模型训练

### tensorboardX 可视化
### 在线服务

作者：走在前方

pytorch 自然语言学习分类 nlp 自然语言处理文本分类

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

把富文本的回车转为br标签

Faye 2020-08-31

619

.NET/C#如何判断某个类是否是泛型类型或泛型接口的子类型详解

Sachi 2020-08-28

741

详解flex和position兼容采坑笔记

Efia 2021-01-18

828

Asp.Net使用服务器控件Image/ImageButton显示本地图片的方法

Mathilda 2020-07-07

845

Shell中去除字符串前后空格的方法

Iris 2021-08-03

567

PHP设计模式之策略模式原理与用法实例分析

Glenna 2020-03-10

914

利用kernel提供的接口打印进程号(pid)

Cynthia 2020-09-01

568

Pytorch实现ResNet网络之ResidualBlock残差块

Kande 2023-05-27

1208

PyTorch常用函数torch.cat()中dim参数使用说明

Tricia 2023-05-27

372

自然语言处理NLPTextRNN实现情感分类

Rhea 2023-07-01

777

循环神经网络TextRNN实现情感短文本分类任务

Kathy 2023-07-01

364

详解基于Transformer实现电影评论星级分类任务

Tani 2023-07-01

1069

C++函数模板学习示例教程指南

Pandora 2023-07-07

go语言定义零值可用的类型学习教程

Tallulah 2023-07-17

216

Redis数据结构之intset整数集合使用学习

Janna 2023-07-20

1721

Redis数据结构之跳跃表使用学习

Ophelia 2023-07-20

644

Redis数据结构之listpack和quicklist使用学习

Natalia 2023-07-20

1968

Pytorch基础教程之torchserve模型部署解析

Xylona 2023-07-20

1007

PyTorch模型创建与nn.Module构建

Radinka 2023-07-20

293

PyTorch模型容器与AlexNet构建示例详解

Dorothy 2023-07-20

1029

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座