【NLP之文本预处理】使用正达则式去除或替换无用信息

Dorothy ·
更新时间:2024-09-21
· 911 次阅读

文本预处理介绍

文本预处理一般是指将原始数据通过数据转换,缺失处理等手段转化为符合要求的“新”数据集的过程。预处理本身是一件极其耗费时间的事情,繁琐且涉及细节很多。预处理做的不好,对后面的建模分析等等都会有很大的影响。

对于自然语言的文本数据,处理过程一般包括文本清洗、分词等,其中每个步骤在中英文处理时都有些不同,如中文分词的难度远大于英文,而英文需要转换大小写、词形还原等步骤。

接下来将会分别介绍中英文预处理中的重点环节,结合实际介绍和使用包括jeba,NLTK 等工具包,实现分词和词干提取等步骤,最后展示完成一个(词频统计)实际任务。

一般来说,文本数据预处理的第一步是文本清洗,这个环节非常灵活。需要对任务的最终目标有一定的理解,针对不同的任务选择不同的处理方法,涉及的细节也非常多。

使用正则表达式去除或替换无用信息

对于不同的任务无关信息可能会有不同,比如做情感分析的时候文本中的邮箱信息就是一种无用信息,而在信息抽取时邮箱信息就会变得非常重要。

实战演练:

已知字符串变量my_string

请将my_string开头和结尾处的空白删去 使用Python的re库的sub()函数,根据正则表达式去除字符串中所有的英文字母,将处理完成的结果存入my_string 将匹配模式(正则表达式)存入变量pattern中 import re my_string = ' aa学习bbcc自然语言ads处理 ' pattern = '[a-zA-Z]' my_string = my_string.strip() my_string = re.sub(pattern,'',my_string)
作者:NLP小姐姐



替换 nlp

需要 登录 后方可回复, 如果你还没有账号请 注册新账号
相关文章