假设有两个随机变量(x,y)(x,y)(x,y),其NNN个样本组合为(x1,x2,…,xN)(x_1,x_2,\dots,x_N)(x1,x2,…,xN)和(y1,y2,…,yN)(y_1,y_2,\dots,y_N)(y1,y2,…,yN)。
一、基础知识单个变量xxx的特征值为:
标准差(standard deviation): σx=∑i=1N(xi−xˉ)2N\sigma_x=\sqrt{\frac{\sum_{i=1}^N(x_{i}-\bar{x})^2}{N}}σx=N∑i=1N(xi−xˉ)2
方差(variance):标准差的平方,即σx2\sigma_x^2σx2
变量XXX和YYY的特征值为:协方差(covariance): σxy=∑i=1N(xi−xˉ)(yi−yˉ)N\sigma_{xy}=\frac{\sum_{i=1}^N(x_{i}-\bar{x})(y_{i}-\bar{y})}{N}σxy=N∑i=1N(xi−xˉ)(yi−yˉ)
二、回归系数与相关系数假设存在回归方程:y=ax+εyy=ax+\varepsilon_yy=ax+εy,其中εy\varepsilon_yεy表示误差项。
1.定义回归系数(regression coefficient): 度量一个变量对另一个变量的线性影响大小。如,用yyy对xxx进行线性回归,得到的xxx的系数即为回归系数,记为ryxr_{yx}ryx。在上式中,我们可知,ryx=ar_{yx}=aryx=a。
相关系数(correction coefficient): 也称作Pearson相关系数,用来度量两个变量之间的相关性(或联系的紧密程度)。该系数取值为[−1,1][-1,1][−1,1],如果越靠近正负1,表明两个变量之间的线性关系越明显;越接近0,表明两个变量之间几乎没有线性关系。当其为0时,说明两个变量之间不存在线性关系。
2.二者的联系回归系数rrr: 令ryxr_{yx}ryx表示用yyy对xxx作线性回归后得到的xxx的回归系数,其计算方法为:
ryx=∑i=1N(xi−xˉ)(yi−yˉ)∑i=1N(xi−xˉ)2=∑i=1N(xi−xˉ)(yi−yˉ)N∑i=1N(xi−xˉ)2N=σxyσx2.(1)
\begin{aligned}
r_{yx}&=\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N(x_i-\bar{x})^2}\\
&=\frac{\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{N}}{\frac{\sum_{i=1}^N(x_i-\bar{x})^2}{N}}\\
&=\frac{\sigma_{xy}}{\sigma_x^2}.
\end{aligned}(1)
ryx=∑i=1N(xi−xˉ)2∑i=1N(xi−xˉ)(yi−yˉ)=N∑i=1N(xi−xˉ)2N∑i=1N(xi−xˉ)(yi−yˉ)=σx2σxy.(1)
相关系数ρ\rhoρ
变量yyy和xxx的相关系数的计算方法为:
ρyx=∑i=1N(xi−xˉ)(yi−yˉ)∑i=1N(xi−xˉ)2∑i=1N(yi−yˉ)2=∑i=1N(xi−xˉ)(yi−yˉ)N∑i=1N(xi−xˉ)2N∑i=1N(yi−yˉ)2N=σxyσxσy.(2)
\begin{aligned}
\rho_{yx}&=\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^N(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^N(y_i-\bar{y})^2}}\\
&=\frac{\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{N}}{\sqrt{\frac{\sum_{i=1}^N(x_i-\bar{x})^2}{N}}\sqrt{\frac{\sum_{i=1}^N(y_i-\bar{y})^2}{N}}}\\
&=\frac{\sigma_{xy}}{\sigma_x\sigma_y}.
\end{aligned}(2)
ρyx=∑i=1N(xi−xˉ)2∑i=1N(yi−yˉ)2∑i=1N(xi−xˉ)(yi−yˉ)=N∑i=1N(xi−xˉ)2N∑i=1N(yi−yˉ)2N∑i=1N(xi−xˉ)(yi−yˉ)=σxσyσxy.(2)
所以,由上面两个式子联立可得:
ryx=ρyx⋅σyσx.
r_{yx}=\rho_{yx}\cdot\frac{\sigma_y}{\sigma_x}.
ryx=ρyx⋅σxσy.
类似地,拓展到多元线性回归的情况下,假设偏方差σy⋅z2\sigma_{y\cdot z}^2σy⋅z2表示固定zzz的前提下yyy的方差,则有偏回归系数ryx⋅zr_{yx \cdot z}ryx⋅z和偏相关系数ρyx⋅z\rho_{yx \cdot z}ρyx⋅z之间的关系为:
ryx⋅z=ρyx⋅z⋅σy⋅zσx⋅z.
r_{yx\cdot z}=\rho_{yx \cdot z}\cdot \frac{\sigma_{y\cdot z}}{\sigma_{x\cdot z}}.
ryx⋅z=ρyx⋅z⋅σx⋅zσy⋅z.
(1)意义上:回归系数是描述自变量如何在数值上与因变量的相关性,即ryxr_{yx}ryx表示xxx每增(减)1个单位,yyy平均改变aaa个单位;而相关系数是一种统计度量方法,用于度量变量之间的相关关系的密切程度。
(2)用途上:回归系数是为了拟合最佳模型,在已知另一个自变量的基础上预测对应的因变量;而相关系数是用来衡量变量之间的线性相关关系。
(3)对称性:用xxx对yyy进行线性回归得到的回归系数rxyr_{xy}rxy不等于用yyy对xxx进行线性回归得到的回归系数ryxr_{yx}ryx;而xxx与yyy的相关系数ρxy\rho_{xy}ρxy等于yyy与xxx的相关系数ρyx\rho_{yx}ρyx。
(4)变量含义:回归系数ryxr_{yx}ryx蕴含了自变量xxx的单位变化对因变量yyy的影响;相关系数ρyx\rho_{yx}ρyx表示自变量xxx和因变量yyy一起变化的程度。
(5)取值范围:回归系数的取值范围为[−∞,∞][-\infty,\infty][−∞,∞],相关系数的取值范围为[−1,1][-1,1][−1,1]。
参考资料:
线性回归,维基百科.