python 高效去重复 支持GB级别大文件的示例代码

Malina ·
更新时间:2024-09-21
· 940 次阅读

如下所示:

#coding=utf-8 import sys, re, os def getDictList(dict): regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+''' with open(dict) as f: data = f.read() return re.findall(regx, data) def rmdp(dictList): return list(set(dictList)) def fileSave(dictRmdp, out): with open(out, 'a') as f: for line in dictRmdp: f.write(line + '\n') def main(): try: dict = sys.argv[1].strip() out = sys.argv[2].strip() except Exception, e: print 'error:', e me = os.path.basename(__file__) print 'usage: %s <input> <output>' %me print 'example: %s dict.txt dict_rmdp.txt' %me exit() dictList = getDictList(dict) dictRmdp = rmdp(dictList) fileSave(dictRmdp, out) if __name__ == '__main__': main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持软件开发网。

您可能感兴趣的文章:Python实现的txt文件去重功能示例Python统计文件中去重后uuid个数的方法python批量查询、汉字去重处理CSV文件Python实现对文件进行单词划分并去重排序操作示例对python读写文件去重、RE、set的使用详解Python过滤txt文件内重复内容的方法python去除文件中重复的行实例python删除本地夹里重复文件的方法Python3 实现随机生成一组不重复数并按行写入文件Python实现的删除重复文件或图片功能示例【去重】



示例 gb Python

需要 登录 后方可回复, 如果你还没有账号请 注册新账号