1、统计学习:监督学习、非监督学习、半监督学习、强化学习
对于监督学习:对于给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布,并假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选择一个最优模型,使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。即统计学习方法三要素:模型、策略、算法。
2、监督学习 输入空间、输出空间、特征空间 联合概率分布、假设空间:输入空间到输出空间的映射的集合
3、三要素
3.1 模型 对监督学习,就是条件概率分布或决策函数
3.2 策略
损失函数:
损失函数的期望:风险函数或期望损失。期望风险是模型关于联合分布的平均损失,经验风险是模型关于训练样本的平均损失。经验风险最小化(ERM)eg极大似然估计。结构风险最小化(SRM)是为了防止过拟合,等价于正则化。如:贝叶斯估计中的最大后验概率估计
3.3算法
4、模型评估与模型选择
评估: 训练误差、测试误差
模型选择:1、正则化:经验风险上加上正则化项或惩罚项,一般是模型复杂度的单调递增函数 2、交叉验证:重复使用数据,分为训练集、测试集。简单交叉验证、S折交叉验证、留一交叉验证
5、泛化能力:由学习方法学习到的模型对未知数据的预测能力。对未知数据预测的误差称为泛化误差:
泛化误差上界是样本容量(反比)、假设空间(正比)的函数
6、分类问题
先根据训练数据学得一个分类器,再进预测数据进行分类。对于二分类问题,评价指标:精确率、召回率 TP:将正类预测为正类数 FN:将正类预测为负类数 FP:将负类预测为正类 TN:将负类预测为负类 精确率: 召回率:
方法:k近邻、感知机、朴素贝叶斯、决策树、决策列表、逻辑斯蒂回归、支持向量机、提升方法、贝叶斯网络、
7、标注问题 隐马尔科夫模型、条件随机场