机器学习-线性模型-普通最小二乘法-正规方程推导

Vera ·

更新时间:2024-09-21

· 921 次阅读

线性模型 - 普通最小二乘法 广义线性模型
目标值 y 是输入变量 x 的线性组合

如果 y^\hat{y}y^ 是预测值，那么有：

y^(w,x)=w0+w1x1+...+wpxp\hat{y}(w, x) = w_0 + w_1 x_1 + ... + w_p x_py^(w,x)=w0+w1x1+...+wpxp

在sklearn中，定义向量 w=(w1,...,wp)w = (w_1, ..., w_p)w=(w1,...,wp) 为系数(斜率) coef_ ，定义 w0w_0w0 为截距 intercept_
普通最小二乘法
在sklearn中，LinearRegression 拟合一个带有系数 w=(w1,...,wp)w = (w_1, ..., w_p)w=(w1,...,wp) 的线性模型，使得数据集实际观测数据和预测数据（估计值）之间的残差平方和最小。其数学表达式为：

min⁡w∣∣Xw−y∣∣22\min\limits_{w} || X w - y||_2^2wmin∣∣Xw−y∣∣22

其系数的求解 - 正规方程：

w=(XTX)−1XTyw = (X^TX)^{-1}X^Tyw=(XTX)−1XTy
正规方程的推导
令 f(w)=∣∣Xw−y∣∣22f(w) = ||Xw - y||_2^2f(w)=∣∣Xw−y∣∣22

由于向量2范数的公式为：

∣∣X∣∣2=∑i=1nxi2||X||_2 = \sqrt{\sum\limits_{i = 1}^nx_i^2}∣∣X∣∣2=i=1∑nxi2

再根据矩阵运算法则，可将原公式变形为：

f(w)=(Xw−y)T(Xw−y)f(w) = (Xw - y)^T(Xw - y)f(w)=(Xw−y)T(Xw−y)

展开：

f(w)=(wTXT−yT)(Xw−y)f(w) = (w^TX^T - y^T)(Xw - y)f(w)=(wTXT−yT)(Xw−y)

f(w)=wTXTXw−wTXTy−yTXw+yTyf(w) = w^TX^TXw - w^TX^Ty - y^TXw + y^Tyf(w)=wTXTXw−wTXTy−yTXw+yTy

f(w)=wTXTXw−2yTXw+yTyf(w) = w^TX^TXw - 2y^TXw + y^Ty f(w)=wTXTXw−2yTXw+yTy

目的是求原函数的最小值，所以对其求导，令导数等于0即可

根据矩阵求导法则求导结果：

f′(w)=2XTXw−2XTyf'(w) = 2X^TXw - 2X^Tyf′(w)=2XTXw−2XTy

令 f′(w)=0f'(w) = 0f′(w)=0 ，则：

2XTXw−2XTy=02X^TXw - 2X^Ty = 02XTXw−2XTy=0

移项化简：

XTXw=XTyX^TXw = X^TyXTXw=XTy

两边同时左乘逆矩阵 (XTX)−1(X^TX)^{-1}(XTX)−1：

(XTX)−1(XTX)w=(XTX)−1XTy(X^TX)^{-1}(X^TX)w = (X^TX)^{-1}X^Ty(XTX)−1(XTX)w=(XTX)−1XTy

最后可得正规方程：

w=(XTX)−1XTyw = (X^TX)^{-1}X^Tyw=(XTX)−1XTy
实例验证 import numpy as np from sklearn import linear_model from sklearn import datasets X, y = datasets.load_boston(True) reg = linear_model.LinearRegression(fit_intercept=False) reg.fit(X, y) print('sklearn封装好的LinearRegression模型计算的系数：', reg.coef_, sep='\n', end='\n\n') coef = np.linalg.inv(X.T @ X) @ X.T @ y print('自己用正规方程计算的系数：', coef, sep='\n')
结果：
sklearn封装好的LinearRegression模型计算的系数： [-9.28965170e-02 4.87149552e-02 -4.05997958e-03 2.85399882e+00 -2.86843637e+00 5.92814778e+00 -7.26933458e-03 -9.68514157e-01 1.71151128e-01 -9.39621540e-03 -3.92190926e-01 1.49056102e-02 -4.16304471e-01] 自己用正规方程计算的系数： [-9.28965170e-02 4.87149552e-02 -4.05997958e-03 2.85399882e+00 -2.86843637e+00 5.92814778e+00 -7.26933458e-03 -9.68514157e-01 1.71151128e-01 -9.39621540e-03 -3.92190926e-01 1.49056102e-02 -4.16304471e-01]
我们发现，sklearn的LinearRegression模型计算的系数和我们直接用正规方程计算的系数一致，说明该模型的拟合的确用的是最小二乘法

但是这是忽略截距的情况，即 fit_intercept=False

如果需要截距，我们用正规方程求解时，需要把截距 w0w_0w0 对应的特征 111 也加在数据 X 中（见文章开头的广义线性模型）求解：
import numpy as np from sklearn import linear_model from sklearn import datasets X, y = datasets.load_boston(True) reg = linear_model.LinearRegression() reg.fit(X, y) print('sklearn封装好的LinearRegression模型计算的系数：', reg.coef_, sep='\n', end='\n\n') print('sklearn封装好的LinearRegression模型计算的截距：', reg.intercept_, sep='\n', end='\n\n') # 截距w0对应的特征为1，所以添加一列值全为1数组 w0 = np.ones(X.shape[0]) X = np.c_[w0, X] intercept_coef = np.linalg.inv(X.T @ X) @ X.T @ y print('自己用正规方程计算的系数：', intercept_coef[1:], sep='\n', end='\n\n') print('自己用正规方程计算的截距：', intercept_coef[0], sep='\n')
结果：
sklearn封装好的LinearRegression模型计算的系数： [-1.08011358e-01 4.64204584e-02 2.05586264e-02 2.68673382e+00 -1.77666112e+01 3.80986521e+00 6.92224640e-04 -1.47556685e+00 3.06049479e-01 -1.23345939e-02 -9.52747232e-01 9.31168327e-03 -5.24758378e-01] sklearn封装好的LinearRegression模型计算的截距： 36.45948838509001 自己用正规方程计算的系数： [-1.08011358e-01 4.64204584e-02 2.05586264e-02 2.68673382e+00 -1.77666112e+01 3.80986521e+00 6.92224640e-04 -1.47556685e+00 3.06049479e-01 -1.23345939e-02 -9.52747232e-01 9.31168327e-03 -5.24758378e-01] 自己用正规方程计算的截距： 36.459488385095966
我们发现，结果一致，说明sklearn中的LinearRegression模型的拟合原理正是最小二乘法。

作者：fhlsyol

最小二乘法学习模型线性模型线性机器学习

1024 个赞

编辑举报

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

Kotlin Android 环境搭建

Quirita 2021-04-07

999

gbk utf8如何选择正确理解和使用GBK及UTF-8网页编码

Brigitte 2021-08-06

924

使用Go进行单元测试的实现

Tallulah 2021-03-19

688

Go语言中结构体方法副本传参与指针传参的区别介绍

Rebecca 2021-05-19

817

Shell中去除字符串前后空格的方法

Iris 2021-08-03

567

Laravel 解决419错误 -ajax请求错误的问题(CSRF验证)

Lewa 2021-01-09

680

从错误中学习改正Go语言五个坏习惯提高编程技巧

Viridis 2023-05-17

1281

Java NIO下ByteBuffer的常用方法学习

Maleah 2023-05-17

473

MySQL基础学习之字符集的应用

Nafisa 2023-05-17

1150

利用Pytorch实现ResNet网络构建及模型训练

Tanisha 2023-05-27

1264

DenseNet121模型实现26个英文字母识别任务

Pandora 2023-07-01

1833

C++函数模板学习示例教程指南

Pandora 2023-07-07

25

go语言定义零值可用的类型学习教程

Tallulah 2023-07-17

216

Redis数据结构之intset整数集合使用学习

Janna 2023-07-20

1721

Redis数据结构之跳跃表使用学习

Ophelia 2023-07-20

644

Redis数据结构之listpack和quicklist使用学习

Natalia 2023-07-20

1968

用python进行线性/非线性拟合的三种方法

Endora 2023-07-20

1362

linux环境部署清华大学大模型最新版chatglm2-6b图文教程

Carly 2023-07-20

547

大语言模型的开发利器langchainan安装使用快速入门学习

Irma 2023-07-20

829

langchainPrompt大语言模型使用技巧详解

Posy 2023-07-20

618

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。
软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座