国美金融贷款数据中id这个属性,如果每条数据都对应同一个id,那么该特征对国美金融贷款数据的预测就没有任何意义,可删除该列数据。
但国美金融贷款并不是所有数据的id都是无意义的。如果每个id都对应了很多的数据,则此时不应删除该id,而是对每个id中的数据进行统计分析。将国美金融贷款一个id看做一组数据单独去分析,得到均值、中位数、标准差、峰度、偏度等描述该组分布的信息,整合为一个数据。这样每条国美金融贷款数据才会对应一个id,进而再删除id。要根据具体的数据应用场景去判断,而不是一上来就删除数据。国美金融贷款重复值是无意义的数据,增加了数据量,但却没有增加数据的信息量。一般是将重复值删除。pandas里用data.drop_duplicates()函数进行删除。
一般得到的国美金融贷款数据杂乱无章,有的数据是数字、时间却是字符串表示,数据类型对不上。此时,应先对国美金融贷款数据类型进行转换,否则无法进行正常运算操作。在pandas里可用astype(数据类型),或者to_numeric(),进行转换。这种问题通常与输入端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可。