数据清洗实际上是将实际业务问题中,脏数据清洗干净,转换为‘赶紧的数据’,所谓的脏,指数据可能存在以下几种问题(主要问题):
数据缺失(Incomplete)是属性值为空的情况。如OCcupancy = “” 数据噪声(Noisy)是数据值不合常理的情况。如Salary = “-100” 数据不一致(Inconsistent)是数据量或者属性数目超出数据分析需要的情况 数据冗余(Redundant)是数据量或者属性数目超出数据分析需要的情况 离群点/异常值(Outliers)是偏离大部分值的数据 数据重复是在数据集中出现多次的数据欢迎阅读数据清洗系列文章:python数据清洗工具、方法、过程整理归纳
一、数据清洗之常用工具——numpy,pandas 二、数据清洗之文件读写——读取csv、Excel和MySQL数据 三、数据清洗之数据表操作——数据筛选、增加删除、查找修改、数据整理和层次化索引 四、数据清洗之数据转换——日期格式数据处理、高阶函数数据处理、字符串数据处理 五、数据清洗之数据统计——数据分组运算、聚合函数使用、分组对象和apply函数、透视图与交叉表 六、数据清洗之数据预处理(一)——重复值处理、缺失值处理 七、数据清洗之数据预处理(二)——异常值处理、数据离散化处理 八、总结