(一)数据读取:
读取数据,并进行展示 统计数据各项指标 明确数据规模与要完成任务(二)特征理解分析
单特征分析,逐个变量分析其对结果的影响 多变量统计分析,综合考虑多种情况影响 统计绘图得出结论(三)数据清洗与预处理
对缺失值进行填充 特征标准化/归一化 筛选有价值的特征 分析特征之间的相关性(四)建立模型
特征数据与标签准备 数据集切分 多种建模算法对比 集成策略等方案改进 一. 数据读取与统计分析import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#plt.style.use('fivethirtyeight')
sns.set_style('darkgrid')
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')
data = pd.read_csv(r'F:\51学习\study\数据挖掘案例\泰坦尼克号\train.csv')
print(data.shape)
data.head()
原创文章 72获赞 14访问量 1万+
关注
私信
展开阅读全文
作者:弎见