20应用统计考研复试要点(part5)--统计学

Shela ·
更新时间:2024-11-10
· 957 次阅读

学习笔记,仅供参考,有错必纠

贾俊平统计学
变量选择与逐步回归

根据多个自变量建立回归模型时,若试图将所有的自变量都引进回归模型,带来的问题往往让人无所适从,或者是对所建立的模型不能进行有效的解释。

变量选择过程

在建立回归模型时,总希望尽可能用最少的变量来建立模型。但究竟哪些自变量应该引入模型,哪些自变量不应该引入模型,这就要对自变量进行一定的筛选。

如果在进行回归时,每次只增加一个变量,并且将新变量与模型中的变量进行比较,若新变量引人模型后以前的某个变量的t统计量不显著,这个变量就会被从模型中剔除。在这种情况下,回归分析就很难存在多重共线性的影响,这就是回归中的搜寻过程。

选择自变量的原则通常是对统计量进行显著性检验,检验的根据是:将一个或一个以上的自变量引人回归模型中时,是否使残差平方和(SSE)显著减少。如果增加一个自变量使残差平方和(SSE)显著减少,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引人回归模型。确定在模型中引人自变量xix_ixi​是否使残差平方和(SSE)显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量。

变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等。


其他参考书
变量选择与逐步回归
必要性

模型中的自变量的数目一般追求“少而精”,丢掉一些不太重要的自变量后,虽然使估计量产生了有偏性,但会更加稳定,预测精度也会提高.

准则

调整后的R2R^2R2越大越好,AIC值越小越好。

注意:SSE或R2R^2R2不宜作为准则,因为自变量子集扩大时,SSE会减小,R2R^2R2会增大,包含虚假成分。

方法

方法一:向前选择

只进不出,每次引入一个最显著变量,变量由少到多,直至无显著变量可引入为止。优点是计算量小,缺点是“终身制”。

方法二:向后剔除

只出不进,先用全部变量建立回归方程,再逐个剔除最不显著变量。变量由多到少,直至无不显著变量可以剔除为止。优点是每个变量都有展示自己的机会,缺点是计算量大,“一棍子打死”。

方法三:逐步回归

有进有出,逐个引入变量,每引入一个变量后,对已入选变量逐个检验,剔除不再显著变量,再考虑引入,如此下去,直至无显著变量可引入,也无不显著变量可以剔除为止。吸收了前进法与后退法的优点,并克服了他们的不足。

山羊菌 原创文章 260获赞 512访问量 11万+ 关注 私信 展开阅读全文
作者:山羊菌



part 考研 统计学

需要 登录 后方可回复, 如果你还没有账号请 注册新账号