【统计】回归系数与相关系数的联系与区别

Elaine ·
更新时间:2024-11-10
· 584 次阅读

目录一、基础知识二、回归系数与相关系数1.定义2.二者的联系3.二者的区别

假设有两个随机变量(x,y)(x,y)(x,y),其NNN个样本组合为(x1,x2,…,xN)(x_1,x_2,\dots,x_N)(x1​,x2​,…,xN​)和(y1,y2,…,yN)(y_1,y_2,\dots,y_N)(y1​,y2​,…,yN​)。

一、基础知识

单个变量xxx的特征值为:
标准差(standard deviation): σx=∑i=1N(xi−xˉ)2N\sigma_x=\sqrt{\frac{\sum_{i=1}^N(x_{i}-\bar{x})^2}{N}}σx​=N∑i=1N​(xi​−xˉ)2​​
方差(variance):标准差的平方,即σx2\sigma_x^2σx2​

变量XXX和YYY的特征值为:协方差(covariance): σxy=∑i=1N(xi−xˉ)(yi−yˉ)N\sigma_{xy}=\frac{\sum_{i=1}^N(x_{i}-\bar{x})(y_{i}-\bar{y})}{N}σxy​=N∑i=1N​(xi​−xˉ)(yi​−yˉ​)​

二、回归系数与相关系数

假设存在回归方程:y=ax+εyy=ax+\varepsilon_yy=ax+εy​,其中εy\varepsilon_yεy​表示误差项。

1.定义

回归系数(regression coefficient): 度量一个变量对另一个变量的线性影响大小。如,用yyy对xxx进行线性回归,得到的xxx的系数即为回归系数,记为ryxr_{yx}ryx​。在上式中,我们可知,ryx=ar_{yx}=aryx​=a。

相关系数(correction coefficient): 也称作Pearson相关系数,用来度量两个变量之间的相关性(或联系的紧密程度)。该系数取值为[−1,1][-1,1][−1,1],如果越靠近正负1,表明两个变量之间的线性关系越明显;越接近0,表明两个变量之间几乎没有线性关系。当其为0时,说明两个变量之间不存在线性关系。

2.二者的联系

回归系数rrr: 令ryxr_{yx}ryx​表示用yyy对xxx作线性回归后得到的xxx的回归系数,其计算方法为:
ryx=∑i=1N(xi−xˉ)(yi−yˉ)∑i=1N(xi−xˉ)2=∑i=1N(xi−xˉ)(yi−yˉ)N∑i=1N(xi−xˉ)2N=σxyσx2.(1) \begin{aligned} r_{yx}&=\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N(x_i-\bar{x})^2}\\ &=\frac{\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{N}}{\frac{\sum_{i=1}^N(x_i-\bar{x})^2}{N}}\\ &=\frac{\sigma_{xy}}{\sigma_x^2}. \end{aligned}(1) ryx​​=∑i=1N​(xi​−xˉ)2∑i=1N​(xi​−xˉ)(yi​−yˉ​)​=N∑i=1N​(xi​−xˉ)2​N∑i=1N​(xi​−xˉ)(yi​−yˉ​)​​=σx2​σxy​​.​(1)
相关系数ρ\rhoρ

变量yyy和xxx的相关系数的计算方法为:
ρyx=∑i=1N(xi−xˉ)(yi−yˉ)∑i=1N(xi−xˉ)2∑i=1N(yi−yˉ)2=∑i=1N(xi−xˉ)(yi−yˉ)N∑i=1N(xi−xˉ)2N∑i=1N(yi−yˉ)2N=σxyσxσy.(2) \begin{aligned} \rho_{yx}&=\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^N(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^N(y_i-\bar{y})^2}}\\ &=\frac{\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{N}}{\sqrt{\frac{\sum_{i=1}^N(x_i-\bar{x})^2}{N}}\sqrt{\frac{\sum_{i=1}^N(y_i-\bar{y})^2}{N}}}\\ &=\frac{\sigma_{xy}}{\sigma_x\sigma_y}. \end{aligned}(2) ρyx​​=∑i=1N​(xi​−xˉ)2​∑i=1N​(yi​−yˉ​)2​∑i=1N​(xi​−xˉ)(yi​−yˉ​)​=N∑i=1N​(xi​−xˉ)2​​N∑i=1N​(yi​−yˉ​)2​​N∑i=1N​(xi​−xˉ)(yi​−yˉ​)​​=σx​σy​σxy​​.​(2)
所以,由上面两个式子联立可得:
ryx=ρyx⋅σyσx. r_{yx}=\rho_{yx}\cdot\frac{\sigma_y}{\sigma_x}. ryx​=ρyx​⋅σx​σy​​.
类似地,拓展到多元线性回归的情况下,假设偏方差σy⋅z2\sigma_{y\cdot z}^2σy⋅z2​表示固定zzz的前提下yyy的方差,则有偏回归系数ryx⋅zr_{yx \cdot z}ryx⋅z​和偏相关系数ρyx⋅z\rho_{yx \cdot z}ρyx⋅z​之间的关系为:
ryx⋅z=ρyx⋅z⋅σy⋅zσx⋅z. r_{yx\cdot z}=\rho_{yx \cdot z}\cdot \frac{\sigma_{y\cdot z}}{\sigma_{x\cdot z}}. ryx⋅z​=ρyx⋅z​⋅σx⋅z​σy⋅z​​.

3.二者的区别

(1)意义上:回归系数是描述自变量如何在数值上与因变量的相关性,即ryxr_{yx}ryx​表示xxx每增(减)1个单位,yyy平均改变aaa个单位;而相关系数是一种统计度量方法,用于度量变量之间的相关关系的密切程度。

(2)用途上:回归系数是为了拟合最佳模型,在已知另一个自变量的基础上预测对应的因变量;而相关系数是用来衡量变量之间的线性相关关系。

(3)对称性:用xxx对yyy进行线性回归得到的回归系数rxyr_{xy}rxy​不等于用yyy对xxx进行线性回归得到的回归系数ryxr_{yx}ryx​;而xxx与yyy的相关系数ρxy\rho_{xy}ρxy​等于yyy与xxx的相关系数ρyx\rho_{yx}ρyx​。

(4)变量含义:回归系数ryxr_{yx}ryx​蕴含了自变量xxx的单位变化对因变量yyy的影响;相关系数ρyx\rho_{yx}ρyx​表示自变量xxx和因变量yyy一起变化的程度。

(5)取值范围:回归系数的取值范围为[−∞,∞][-\infty,\infty][−∞,∞],相关系数的取值范围为[−1,1][-1,1][−1,1]。

参考资料:

线性回归,维基百科.
作者:Coix



回归系数 联系 相关系数 回归 关系

需要 登录 后方可回复, 如果你还没有账号请 注册新账号
相关文章