集成学习

Natalie ·

更新时间:2024-11-15

· 931 次阅读

1.集成学习简介 一个牛逼的算法和10个简单的算法比，后者更好一点。所以在解决过拟合和欠拟合问题的时候，使用boosting 和bagging 的方法。欠拟合问题解决：弱弱组合变强 boosting 过拟合问题解决：相互牵制变壮 bagging 2. Bagging bagging集成过程采样：从所有样本中又放回的采样一部分特征学习：训练弱n个学习器集成：平权投票n 个若学习器随机森林定义：随机森林 = Bagging + 决策树流程
在所有样本里选m个数据
在m个数据里选k个特征
训练n 个弱决策树
重复上三条
平权投票
注意：有放回的取出数据。选取的特征远小于所有特征。 API
from sklearn.ensemble import RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)
n_estimators：integer，optional（default = 10）森林里的树木数量120,200,300,500,800,1200
Criterion：string，可选（default =“gini”）分割特征的测量方法
max_depth：integer或None，可选（默认=无）树的最大深度 5,8,15,25,30
max_features="auto”,每个决策树的最大特征数量
If “auto”, then max_features=sqrt(n_features).
If “sqrt”, then max_features=sqrt(n_features)(same as “auto”).
If “log2”, then max_features=log2(n_features).
If None, then max_features=n_features.
bootstrap：boolean，optional（default = True）是否在构建树时使用放回抽样
min_samples_split:节点划分最少样本数
min_samples_leaf:叶子节点的最小样本数
超参数：n_estimator, max_depth, min_samples_split,min_samples_leaf 随机森林的优缺点 Bagging + 决策树/线性回归/逻辑回归/深度学习… = bagging集成学习方法
经过上面方式组成的集成学习方法:
均可在原有算法上提高约2%左右的泛化正确率
简单, 方便, 通用 Boosting 集成原理
多个学习器，随着学习的积累由弱到强实现过程初始化训练数据权重，初始权重相等通过第一个学习器，计算错误率通过错误率计算学习器对各个训练数据的投票权重对训练数据根据投票权重重新赋权重复1-4 对最后的学习器甲醛 Bagging与Boosting 的区别 数据方面：
bagging:对数据有放回的重新采样
boosting：对数据进行权重调整权重方面：
bagging：平权
boosting：加权学习顺序：
bagging：并行
boosting：串行主要作用：
bagging：防止过拟合
boosting：防止欠拟合 GBDT 梯度提升决策树(GBDT Gradient Boosting Decision Tree) 是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。 GBDT = 梯度下降 + Boosting + 决策树
作者：weixin_34073041

集成学习学习

1024 个赞