python机器学习指南-监督学习

Cerelia ·
更新时间:2024-11-14
· 734 次阅读

给定输入输出对的示例,根据所给输入预测结果,都应该使用监督学习

1分类与回归

分类问题目标:预测类别便签(class label)
回归问题目标:预测连续值,例如:根据教育水平、年龄、居住地预测一个人年收入,可以在给定范围内任意取值;根据上一年产量、天气和员工数预测玉米农场今年产量
输出是否具有某种连续性

2泛化、过拟合、欠拟合

训练集训练出的模型能够精确的应用到测试集,则称这个模型能够从训练集泛化到测试集;若训练的模型过分关注训练集中的属性,对训练集准确率高,对测试集准确率低,则成为过拟合;反之,若训练模型过分简单,则称为欠拟合
数据集中包含的数据点的变化范围越大,在不发生过拟合的前提下你可以使用的模型就越复杂。

3监督学习算法 3.1一些样本数据集 forge-二分类 import mglearn import matplotlib.pyplot as plt #生成数据集 X,y=mglearn.datasets.make_forge() #数据集绘图 mglearn.discrete_scatter(X[:,0],X[:,1],y) plt.legend(["class 1","class 0"],loc=4) plt.xlabel("first feature") plt.ylabel("second feature") print("X.shape:{}".format(X.shape)) wave-说明回归
wave数据集包括一个输入特征和一个连续的目标变量,后者为预测对象 。 #单一特征位于x轴,回归目标位于y轴 import mglearn import matplotlib.pyplot as plt #生成数据集 X,y=mglearn.datasets.make_wave(n_samples=40) #数据集绘图 plt.plot(X,y,'o') plt.ylim(-3,3) plt.xlabel("feature") plt.ylabel("target") 威斯康星州乳腺癌数据集(简称 cancer)
记录了乳腺癌肿瘤的临床测量数据,每个肿瘤都被标记为“良性”(benign,表示无害肿瘤)或“恶性”(malignant,表示癌性肿瘤),其任务是基于人体组织的测量数据来学习预测肿瘤是否为恶性。用 scikit-learn 模块的 load_breast_cancer 函数来加载数据 from sklearn.datasets import load_breast_cancer cancer = load_breast_cancer() print("cancer.keys(): \n{}".format(cancer.keys())) 波士顿房价数据集
利用犯罪率、是否邻近查尔斯河、公路可达性等信息,来预测 20 世纪 70 年代波士顿地区房屋价格的中位数。 from sklearn.datasets import load_boston boston = load_boston() print("Data shape: {}".format(boston.data.shape)) 3.2 k-nn
作者:weixin_43954971



学习指南 学习 监督学习 python机器学习 Python

需要 登录 后方可回复, 如果你还没有账号请 注册新账号