线性回归中，MGD、BGD与MBGD对比研究(三)——以鸢尾花数据集为例

Serepta ·

更新时间:2024-09-20

· 826 次阅读

上一次，写了MGD、SGD、MBGD的代码实现，现在，我们来康康实例

我们以大名鼎鼎的鸢尾花数据集为例:
https://archive.ics.uci.edu/ml/machine-learning-databases/iris/
在这里插入图片描述
下载这个iris.data即可
将其置于当前工作文件夹即可

先导入需要的库:
import numpy as np import pandas as pd import random
然后将我们上一次写的函数copy过来:
def MGD_train(X, y, alpha=0.0001, maxIter=1000, theta_old=None): ''' MGD训练线性回归传入: X : 已知数据 y : 标签 alpha : 学习率 maxIter : 总迭代次数返回: theta : 权重参数 ''' # 初始化权重参数 theta = np.ones(shape=(X.shape[1],)) if not theta_old is None: # 假装是断点续训练 theta = theta_old.copy() for i in range(maxIter): # 预测 y_pred = np.sum(X * theta, axis=1) # 全部数据得到的梯度 gradient = np.average((y - y_pred).reshape(-1, 1) * X, axis=0) # 更新学习率 theta += alpha * gradient return theta def SGD_train(X, y, alpha=0.0001, maxIter=1000, theta_old=None): ''' SGD训练线性回归传入: X : 已知数据 y : 标签 alpha : 学习率 maxIter : 总迭代次数返回: theta : 权重参数 ''' # 初始化权重参数 theta = np.ones(shape=(X.shape[1],)) if not theta_old is None: # 假装是断点续训练 theta = theta_old.copy() # 数据数量 data_length = X.shape[0] for i in range(maxIter): # 随机选择一个数据 index = np.random.randint(0, data_length) # 预测 y_pred = np.sum(X[index, :] * theta) # 一条数据得到的梯度 gradient = (y[index] - y_pred) * X[index, :] # 更新学习率 theta += alpha * gradient return theta def MBGD_train(X, y, alpha=0.0001, maxIter=1000, batch_size=10, theta_old=None): ''' MBGD训练线性回归传入: X : 已知数据 y : 标签 alpha : 学习率 maxIter : 总迭代次数 batch_size : 没一轮喂入的数据数返回: theta : 权重参数 ''' # 初始化权重参数 theta = np.ones(shape=(X.shape[1],)) if not theta_old is None: # 假装是断点续训练 theta = theta_old.copy() # 所有数据的集合 all_data = np.concatenate([X, y.reshape(-1, 1)], axis=1) for i in range(maxIter): # 从全部数据里选 batch_size 个 item X_batch_size = np.array(random.choices(all_data, k=batch_size)) # 重新给 X, y 赋值 X_new = X_batch_size[:, :-1] y_new = X_batch_size[:, -1] # 将数据喂入, 更新 theta theta = MGD_train(X_new, y_new, alpha=0.0001, maxIter=1, theta_old=theta) return theta def GD_predict(X, theta): ''' 用于预测的函数传入: X : 数据 theta : 权重返回: y_pred: 预测向量 ''' y_pred = np.sum(theta * X, axis=1) # 实数域空间 -> 离散三值空间, 则需要四舍五入 y_pred = (y_pred + 0.5).astype(int) return y_pred def calc_accuracy(y, y_pred): ''' 计算准确率传入: y : 标签 y_pred : 预测值返回: accuracy : 准确率 ''' return np.average(y == y_pred)*100
以上是需要用到的函数
# 读取数据 iris_raw_data = pd.read_csv('./iris.data', names =['sepal length', 'sepal width', 'petal length', 'petal width', 'class']) # 将三种类型映射成整数 Iris_dir = {'Iris-setosa': 1, 'Iris-versicolor': 2, 'Iris-virginica': 3} iris_raw_data['class'] = iris_raw_data['class'].apply(lambda x:Iris_dir[x]) # 训练数据 X iris_data = iris_raw_data.values[:, :-1] # 标签 y y = iris_raw_data.values[:, -1] # 用MGD训练的参数 start = time.time() theta_MGD = MGD_train(iris_data, y) run_time = time.time() - start y_pred_MGD = GD_predict(iris_data, theta_MGD) print("MGD训练1000轮得到的准确率{:.2f}% 运行时间是{:.2f}s".format(calc_accuracy(y, y_pred_MGD), run_time)) # 用SGD训练的参数 start = time.time() theta_SGD = SGD_train(iris_data, y) run_time = time.time() - start y_pred_SGD = GD_predict(iris_data, theta_SGD) print("SGD训练1000轮得到的准确率{:.2f}% 运行时间是{:.2f}s".format(calc_accuracy(y, y_pred_SGD), run_time)) # 用MBGD训练的参数 start = time.time() theta_MBGD = MBGD_train(iris_data, y) run_time = time.time() - start y_pred_MBGD = GD_predict(iris_data, theta_MBGD) print("MBGD训练1000轮得到的准确率{:.2f}% 运行时间是{:.2f}s".format(calc_accuracy(y, y_pred_MBGD), run_time))
运行一下:
MGD训练1000轮得到的准确率92.67% 运行时间是0.02s SGD训练1000轮得到的准确率93.33% 运行时间是0.01s MBGD训练1000轮得到的准确率92.67% 运行时间是0.05s
(你得到的结果准确率可能有些不同，因为在SGD和MBGD中，有随机部分）

另外，运行时间和我们预想的有较大差异，尤其是MBGD竟然时间最长，是因为笔者在实现代码时，有这样一句话:

X_batch_size = np.array(random.choices(all_data, k=batch_size))
这个随机过程消耗了大量时间

下一篇，我们试一试，可视化loss——tensorboard

作者：Ryan Huang

鸢尾花数据集数据回归线性花线性回归

1024 个赞

编辑举报

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

深入理解HTML的FormData对象

Marmara 2020-03-22

592

W3C公布最新的HTML5标准草案

Oprah 2020-06-20

912

gbk utf8如何选择正确理解和使用GBK及UTF-8网页编码

Brigitte 2021-08-06

924

CSS未知高度垂直居中的实现

Karima 2020-11-22

556

详解css栅格系统在项目中的灵活运用

Ursula 2020-04-01

908

CSS清除浮动方法大全(小结)

Quirita 2020-01-27

903

Apache No space left on device的解决办法

Peren 2020-12-22

836

数据结构之带头结点的单链表

Grizelda 2023-07-20

1827

C++花括号{}初始化小结

Penny 2023-07-20

460

C++各种输出数据类型详解

Janna 2023-07-20

623

Golang基于Vault实现敏感数据加解密

Ophelia 2023-07-21

1848

用Python进行数据清洗以及值处理

Crystal 2023-07-21

283

Python常用的数据清洗方法详解

Laila 2023-07-21

1301

Python multiprocessing.value实现多进程数据共享的示例

Aine 2023-07-21

1131

深入探究python中Pandas库处理缺失数据和数据聚合

Bliss 2023-07-21

191

Python中Pandas库的数据处理与分析

Lillian 2023-07-21

155

pandas删除重复数据简单方法

Tertia 2023-07-21

311

详解C#如何将枚举以下拉数据源的形式返回给前端

Olive 2023-07-21

797

Flutter中跨组件数据传递的方法总结

Angie 2023-07-21

906

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。
软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座