Python输入输出-自然语言处理+json格式化

Ianthe ·

更新时间:2024-11-13

· 555 次阅读

Python输入输出-自然语言处理+json格式化

NLP自然语言处理

读取文件去除所有标点符号和换行符，并把所有大写变成小写；合并相同的词，统计每个词出现的频率，并按照词频从大到小排序；将结果按行输出到文件 out.txt。
在这里插入图片描述

import re
def parse(text):
    #使用正则表达式去除text文件内标点符号和换行符，替换为空格，
    text = re.sub(r'[^\W]',' ',text)
    #转换为小写
    text = text.lower()
    #生成所有单词的列表。split将输入的字符串分割后为列表
    word_list = text.split(' ')
    #去除空白单词，https://blog.csdn.net/Jerry_1126/article/details/84640993
    #filter方法，若第一个参数为None，则默认去除序列中所有值为假的元素（None、False、0、''、()、[]、{}）
    word_list = filter(None,word_list)
    word_cnt = { }
    '''
    >>> word_list = ['xxx','yyy','zzz','xxx','yyy','yyy']
    >>> word_cnt = {}
    >>> for word in word_list:
    ...     if word not in word_cnt:
    ...         word_cnt[word] = 0
    ...     word_cnt[word] += 1
    ... 
    >>> word_cnt.items()
    dict_items([('xxx', 2), ('yyy', 3), ('zzz', 1)])
    '''
    for word in word_list:
        if word not in word_cnt:
            word_cnt[word] = 0
        word_cnt[word] += 1
    '''
    lambda函数，输入：输出
    items为字典对应方法
    >>> sorted_word_cnt = sorted(word_cnt.items(),key=lambda kv: kv[1],reverse=True)
    >>> print(sorted_word_cnt)
    [('yyy', 3), ('xxx', 2), ('zzz', 1)]
    >>> sorted_word_cnt = sorted(word_cnt.items(),key=lambda kv: kv[0],reverse=True)
    >>> print(sorted_word_cnt)
    [('zzz', 1), ('yyy', 3), ('xxx', 2)]
    >>> sorted_word_cnt = sorted(word_cnt.items(),key=lambda kv: kv[0],reverse=False)
    >>> print(sorted_word_cnt)
    [('xxx', 2), ('yyy', 3), ('zzz', 1)]
    '''
    sorted_word_cnt = sorted(word_cnt.items(),key=lambda kv: kv[1],reverse = True)
    return sorted_word_cnt
    with open('in.txt','r') as fin:
        text = fin.read()
    word_and_freq = parse(text)
    with open('out.txt','w') as fout:
    for word,freq in word_and_freq:
        fout.write('{} {}\n'.format(word,freq))

JSON序列化

JSON（JavaScript Object Notation），所有事情都用设计的字符串来表示

两种黑箱：

第一种，输入这些杂七杂八的信息，比如 Python 字典，输出一个字符串；

第二种，输入这个字符串，可以输出包含原始信息的 Python 字典。
#json.dumps接受python基本数据类型，序列化为string >>> params = {'name':'Icey','age':18,'home':'shanxi','weight':99.8} >>> params_str = json.dumps(params) >>> print('type of params_str = {},params_str = {}'.format(type(params_str),params)) type of params_str = ,params_str = {'name': 'Icey', 'age': 18, 'home': 'shanxi', 'weight': 99.8} #json.loads()接收合法字符串，反序列化为python基本数据类型 #须要try catch >>> original_params = json.loads(params_str) >>> print('type of original_params = {},original_params = {}'.format(type(original_params),original_params)) type of original_params = ,original_params = {'name': 'Icey', 'age': 18, 'home': 'shanxi', 'weight': 99.8}
文件序列化json+open和read/write
with open('params.json', 'w') as fout: params_str = json.dump(params, fout) with open('params.json', 'r') as fin: original_params = json.load(fin)
作者：tryyourbest0928

json格式化 json格式自然语言 JSON 输出自然语言处理 Python

1024 个赞

编辑举报

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

HTML 字符集

Kamiisa 2020-04-27

703

.NET/C#如何判断某个类是否是泛型类型或泛型接口的子类型详解

Sachi 2020-08-28

741

CSS 垂直水平居中的5种最佳解决方案

Nabila 2021-07-22

935

详解ABP框架中领域层的领域事件Domain events

Iolanthe 2020-07-29

942

PHP设计模式之策略模式原理与用法实例分析

Glenna 2020-03-10

914

Linux服务器网卡流量查看方法 shell和Python各一枚

Vanessa 2021-06-21

596

nginx 基本配置与参数说明详细介绍

Scarlett 2021-07-12

887

一文详解Python中多进程和进程池的使用方法

Serafina 2023-07-24

338

Python中常用功能的实现代码分享

Kathy 2023-07-24

934

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

Python进阶之利用+和*进行列表拼接

Tani 2023-07-24

656

Python进阶之列表推导与生成器表达式详解

Tanisha 2023-07-24

1394

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

java如何完成输出语句实例详解

Tanisha 2023-07-28

1303

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。
软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座