学习笔记,仅供参考,有错必纠
贾俊平统计学根据多个自变量建立回归模型时,若试图将所有的自变量都引进回归模型,带来的问题往往让人无所适从,或者是对所建立的模型不能进行有效的解释。
变量选择过程在建立回归模型时,总希望尽可能用最少的变量来建立模型。但究竟哪些自变量应该引入模型,哪些自变量不应该引入模型,这就要对自变量进行一定的筛选。
如果在进行回归时,每次只增加一个变量,并且将新变量与模型中的变量进行比较,若新变量引人模型后以前的某个变量的t统计量不显著,这个变量就会被从模型中剔除。在这种情况下,回归分析就很难存在多重共线性的影响,这就是回归中的搜寻过程。
选择自变量的原则通常是对统计量进行显著性检验,检验的根据是:将一个或一个以上的自变量引人回归模型中时,是否使残差平方和(SSE)显著减少。如果增加一个自变量使残差平方和(SSE)显著减少,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引人回归模型。确定在模型中引人自变量xix_ixi是否使残差平方和(SSE)显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量。
变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等。
模型中的自变量的数目一般追求“少而精”,丢掉一些不太重要的自变量后,虽然使估计量产生了有偏性,但会更加稳定,预测精度也会提高.
准则调整后的R2R^2R2越大越好,AIC值越小越好。
注意:SSE或R2R^2R2不宜作为准则,因为自变量子集扩大时,SSE会减小,R2R^2R2会增大,包含虚假成分。
方法方法一:向前选择
只进不出,每次引入一个最显著变量,变量由少到多,直至无显著变量可引入为止。优点是计算量小,缺点是“终身制”。
方法二:向后剔除
只出不进,先用全部变量建立回归方程,再逐个剔除最不显著变量。变量由多到少,直至无不显著变量可以剔除为止。优点是每个变量都有展示自己的机会,缺点是计算量大,“一棍子打死”。
方法三:逐步回归
有进有出,逐个引入变量,每引入一个变量后,对已入选变量逐个检验,剔除不再显著变量,再考虑引入,如此下去,直至无显著变量可引入,也无不显著变量可以剔除为止。吸收了前进法与后退法的优点,并克服了他们的不足。
山羊菌 原创文章 260获赞 512访问量 11万+ 关注 私信 展开阅读全文