Linear Regression分析概率解释和SVD优化

Karli ·
更新时间:2024-09-21
· 533 次阅读

线性回归可以说是最简单模型。

给定训练数据 D={ xi, yi} i=1,2,...n,其中 ,回归学习一个从输入x 到输出y的映射 f

且f是一个线性函数 y= f (x|w)=w.Tx

如果损失函数采用RSS 

J(w) = ∑(yi -w.Txi)^2   i=1,2...n

如果没有正则项就等价于最小二乘线性回归

正则项采用L2时得到Ridge回归模型,正则项为L1得到Lasso模型。正则项是为了让模型更简单。因为实际中可能有很多个线性模型满足我们的数据特性,但其中哪个最好就让我们的正则项来确定。给w加上限制就能得到我们最想要的那个模型。

我们分析下线性回归模型的概率解释:

最小二乘(线性)回归等价于极大似然估计

正则(线性)回归等价于高斯先验(L2正则)或Laplace先 验下(L1正则)的贝叶斯估计

 f(x)=\sum\limits_{j=1}^d{{x_j}{w_j}+\varepsilon}=x{w^T}+\varepsilon

其中ε为线性预测和真值之间的残差

假设{\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2}),即{y_i}{\sim}N({x_i}{w^T},{\sigma^2}),那么用最大似然估计推导:

                          \arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2})         (9)

                          \arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-n\ln\sigma\sqrt{2\pi}}      

极大似然估计等价于极小负log似然损失(negative log likelihood, NLL) 对上面公式取相反数可看出来等价于下面最小二乘                          \arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}=||y-X{w^T}||_2^2        

假设{\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2}){w_i}{\sim}N(0,{\tau^2}),那么用最大后验估计推导:

 \arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2})    

                          \arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{{w_j}^2-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}}  

                          \arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{w_j^2}=||y-X{w^T}||_2^2+\lambda||w||_2^2   

此时就等价于Ridge回归模型

假设{\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2}){w_i}{\sim}Lapace(0,b),同样采用后验估计推导:

                          \arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2})   

                          \arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{\left|{{w_j}}\right|-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}}   

                          \arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{\left|{{w_j}}\right|}=||y-X{w^T}||_2^2+\lambda||w|{|_1}  

此时等价于Lasso回归模型

这里值讲解下最小二乘的SVD优化

J(w) = ||y-Xw||^2

等价于求 y=Xw

如果X是方正,可得到w = X-1w (X-1表示X的逆)

如果X不可逆,可以使用SVD进行分解  X = U∑V.T 带入上式可得。


作者:梦中又说人间梦



svd linear

需要 登录 后方可回复, 如果你还没有账号请 注册新账号
相关文章
Belle 2020-10-12
942