电费敏感数据挖掘一: 数据处理与特征工程

Fawn ·
更新时间:2024-09-20
· 809 次阅读

目录:一. 数据筛选1.1 读取数据1.2 加入label值1.3 留下一条工单记录的数据1.4 加载通话数据二. 离散值处理2.1 对离散型数值进行编码2.2 数据编码长度所占比例2.3 时间数据处理2.4 用电方式2.5 城市编码2.6 收费信息表数据三. 构建统计特征存下特征 一. 数据筛选 1.1 读取数据 import numpy as np import pandas as pd import csv data_path = r'..\电费敏感预测\rawdata' # 工单信息 file_jobinfo_train = '01_arc_s_95598_wkst_train.tsv' file_jobinfo_test = '01_arc_s_95598_wkst_test.tsv' # 通话信息记录 file_comm = '02_s_comm_rec.tsv' # 应收电费信息 file_flow_train = '09_arc_a_rcvbl_flow.tsv' file_flow_test = '09_arc_a_rcvbl_flow_test.tsv' # 训练集 file_label = 'train_label.csv' # 测试集 file_test = 'test_to_predict.csv' train_info = pd.read_csv(data_path + '\processed_' + file_jobinfo_train, sep = '\t', quoting = csv.QUOTE_NONE) # quoting 防止文本里包含英文双引号导致报错 # 过滤CUST_NO为空的用户 train_info = train_info.loc[~train_info.CUST_NO.isnull()] train_info['CUST_NO'] = train_info.CUST_NO.astype(np.int64) train_info.head(2)

原创文章 76获赞 14访问量 1万+ 关注 私信 展开阅读全文
作者:弎见



特征工程 特征 数据 工程 数据挖掘 数据处理

需要 登录 后方可回复, 如果你还没有账号请 注册新账号