【NLP之文本预处理】使用正达则式去除或替换无用信息

Dorothy ·

更新时间:2024-09-21

· 911 次阅读

文本预处理介绍

文本预处理一般是指将原始数据通过数据转换,缺失处理等手段转化为符合要求的“新”数据集的过程。预处理本身是一件极其耗费时间的事情，繁琐且涉及细节很多。预处理做的不好，对后面的建模分析等等都会有很大的影响。

对于自然语言的文本数据,处理过程一般包括文本清洗、分词等，其中每个步骤在中英文处理时都有些不同,如中文分词的难度远大于英文,而英文需要转换大小写、词形还原等步骤。

接下来将会分别介绍中英文预处理中的重点环节，结合实际介绍和使用包括jeba,NLTK 等工具包,实现分词和词干提取等步骤,最后展示完成一个（词频统计）实际任务。

一般来说,文本数据预处理的第一步是文本清洗，这个环节非常灵活。需要对任务的最终目标有一定的理解,针对不同的任务选择不同的处理方法，涉及的细节也非常多。

使用正则表达式去除或替换无用信息

对于不同的任务无关信息可能会有不同,比如做情感分析的时候文本中的邮箱信息就是一种无用信息，而在信息抽取时邮箱信息就会变得非常重要。

实战演练：

已知字符串变量my_string

请将my_string开头和结尾处的空白删去使用Python的re库的sub()函数，根据正则表达式去除字符串中所有的英文字母，将处理完成的结果存入my_string 将匹配模式（正则表达式）存入变量pattern中

import re  
my_string = ' aa学习bbcc自然语言ads处理  ' 
pattern = '[a-zA-Z]'
my_string = my_string.strip()
my_string = re.sub(pattern,'',my_string)

作者：NLP小姐姐

替换 nlp

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

详解flex和position兼容采坑笔记

Efia 2021-01-18

828

linux 比较两个文件夹diff不同 (diff命令, md5列表)

Phedra 2020-04-08

787

Mysql中如何批量替换某个字段的值:replace

Olinda 2022-11-04

268

C语言进程程序替换的实现详解

Chynna 2022-11-04

998

vue-router如何实时动态替换路由参数(地址栏参数)

Xanthe 2022-11-06

1691

Python 数据清洗删除缺失值替换缺失值详情

Fern 2022-11-06

318

SpringBoot 替换 if 的参数校验示例代码

Anna 2022-12-15

1802

mysql中的replace函数替换字符串问题

Malinda 2022-12-21

963

Pandas中根据条件替换列中的值的四种方式

Ula 2023-01-17

891

OpenCV实现视频绿幕背景替换功能的示例代码

Serafina 2023-02-20

1031

python中路径字符串斜杠替换方式

Oria 2023-03-04

172

PGSQL查询最近N天的数据及SQL语句实现替换字段内容

Gilana 2023-03-06

1482

如何使用正则表达式保留部分内容的替换功能

Liana 2023-03-17

1027

MySQL全局遍历替换特征字符串的实现方法

Elina 2023-03-25

1187

正则表达式替换字符串并保留其中部分任意内容(最新推荐)

Fawn 2023-04-14

814

使用PowerShell实现批量修改或替换文件名

Kara 2023-04-26

578

一文带你了解C++中的字符替换方法

Bunny 2023-04-28

1158

Python NLP开发之实现聊天机器人

Netany 2023-05-12

1951

LRU缓存替换策略及C#实现方法分享

Beth 2023-05-13

939

react-router v6实现权限管理+自动替换页面标题的案例

Elita 2023-05-17

774

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座