给定输入输出对的示例,根据所给输入预测结果,都应该使用监督学习
1分类与回归分类问题目标:预测类别便签(class label)
回归问题目标:预测连续值,例如:根据教育水平、年龄、居住地预测一个人年收入,可以在给定范围内任意取值;根据上一年产量、天气和员工数预测玉米农场今年产量
输出是否具有某种连续性
训练集训练出的模型能够精确的应用到测试集,则称这个模型能够从训练集泛化到测试集;若训练的模型过分关注训练集中的属性,对训练集准确率高,对测试集准确率低,则成为过拟合;反之,若训练模型过分简单,则称为欠拟合。
数据集中包含的数据点的变化范围越大,在不发生过拟合的前提下你可以使用的模型就越复杂。
import mglearn
import matplotlib.pyplot as plt
#生成数据集
X,y=mglearn.datasets.make_forge()
#数据集绘图
mglearn.discrete_scatter(X[:,0],X[:,1],y)
plt.legend(["class 1","class 0"],loc=4)
plt.xlabel("first feature")
plt.ylabel("second feature")
print("X.shape:{}".format(X.shape))
wave-说明回归#单一特征位于x轴,回归目标位于y轴
import mglearn
import matplotlib.pyplot as plt
#生成数据集
X,y=mglearn.datasets.make_wave(n_samples=40)
#数据集绘图
plt.plot(X,y,'o')
plt.ylim(-3,3)
plt.xlabel("feature")
plt.ylabel("target")
威斯康星州乳腺癌数据集(简称 cancer)from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
print("cancer.keys(): \n{}".format(cancer.keys()))
波士顿房价数据集from sklearn.datasets import load_boston
boston = load_boston()
print("Data shape: {}".format(boston.data.shape))
3.2 k-nn