数据挖掘案例: 泰坦尼克号

Kalika ·
更新时间:2024-11-01
· 777 次阅读

目录:*. 数据挖掘流程一. 数据读取与统计分析二. 特征分析 & 缺失值填充2.1 性别与获救2.2 船舱等级与获救2.3 年龄与获救2.4 姓名(称谓) 与获救2.5 填充缺失值2.6 登船地点与获救2.7 兄弟姐妹的数量2.8 父母和孩子的数量2.9 船票的价格三. 特征相关性3.1 相关性热度图3.2 热度图下三角四. 构建特征4.1 年龄特征4.2 家庭总人口4.3 船票价格4.4 类型转换与特征清洗五. 机器学习建模5.1 切分训练集与测试集5.2 逻辑回归 LogisticRegression5.3 支持向量机 SVM5.4 决策树 DecisionTree5.5 随机森林 RandomForest5.6 K近邻 KNeighbors5.7 高斯贝叶斯 Naive Bayes5.8 梯度提升树 GradientBoosting六. 交叉验证七. 混淆矩阵八. 超参数调整 GridSearchCV九. 集成模块9.1 投票分类器9.2 引导聚类算法 Bagging9.3 自适应增强 AdaBoost9.4 梯度提升 GradientBoosting十. 特征重要性 *. 数据挖掘流程

(一)数据读取:

读取数据,并进行展示 统计数据各项指标 明确数据规模与要完成任务

(二)特征理解分析

单特征分析,逐个变量分析其对结果的影响 多变量统计分析,综合考虑多种情况影响 统计绘图得出结论

(三)数据清洗与预处理

对缺失值进行填充 特征标准化/归一化 筛选有价值的特征 分析特征之间的相关性

(四)建立模型

特征数据与标签准备 数据集切分 多种建模算法对比 集成策略等方案改进 一. 数据读取与统计分析 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns #plt.style.use('fivethirtyeight') sns.set_style('darkgrid') %matplotlib inline import warnings warnings.filterwarnings('ignore') data = pd.read_csv(r'F:\51学习\study\数据挖掘案例\泰坦尼克号\train.csv') print(data.shape) data.head()

原创文章 72获赞 14访问量 1万+ 关注 私信 展开阅读全文
作者:弎见



泰坦尼克号 数据 数据挖掘

需要 登录 后方可回复, 如果你还没有账号请 注册新账号