python数据清洗工具、方法、过程整理归纳(八、总结)

Vera ·
更新时间:2024-11-10
· 814 次阅读

文章目录数据清洗步骤函数大全数据清洗的内容总结 数据清洗步骤 数据获取,使用read_csv或者read_excel 数据探索,使用shape,describe或者info函数 行列操作,使用loc或者iloc函数 数据整合,对不同的数据源进行整理 数据类型转换,对不同字段数据类型进行转换 分组汇总,对数据进行各个维度的计算 处理重复值、缺失值和异常值以及数据离散化 函数大全 merge,concat函数常常用于数据整合 pd.to_datetime常常用于日期格式转换 str函数用于字符串操作 函数astype用于数据类型转换 函数apply和map用于更加高级的数据处理 Groupby用于创建分组对象 透视表函数pd.pivot_table和交差表pd.crosstab 分组对象和agg结合使用,统计需要的信息 数据清洗的内容 选择子集 重命名列 缺失数据处理 数据类型的转换 字符串的处理 时间日期的处理 数据排序 异常值处理 总结

数据清洗实际上是将实际业务问题中,脏数据清洗干净,转换为‘赶紧的数据’,所谓的脏,指数据可能存在以下几种问题(主要问题):

数据缺失(Incomplete)是属性值为空的情况。如OCcupancy = “” 数据噪声(Noisy)是数据值不合常理的情况。如Salary = “-100” 数据不一致(Inconsistent)是数据量或者属性数目超出数据分析需要的情况 数据冗余(Redundant)是数据量或者属性数目超出数据分析需要的情况 离群点/异常值(Outliers)是偏离大部分值的数据 数据重复是在数据集中出现多次的数据

欢迎阅读数据清洗系列文章python数据清洗工具、方法、过程整理归纳

一、数据清洗之常用工具——numpy,pandas 二、数据清洗之文件读写——读取csv、Excel和MySQL数据 三、数据清洗之数据表操作——数据筛选、增加删除、查找修改、数据整理和层次化索引 四、数据清洗之数据转换——日期格式数据处理、高阶函数数据处理、字符串数据处理 五、数据清洗之数据统计——数据分组运算、聚合函数使用、分组对象和apply函数、透视图与交叉表 六、数据清洗之数据预处理(一)——重复值处理、缺失值处理 七、数据清洗之数据预处理(二)——异常值处理、数据离散化处理 八、总结
作者:crystal_sugar



方法 归纳 工具 Python

需要 登录 后方可回复, 如果你还没有账号请 注册新账号
相关文章