统计学第十四周：方差分析

Tina ·

更新时间:2024-11-14

· 916 次阅读

统计学第十四周：方差分析

一、知识点

因子

在方差分析中所要检验的对象称为因子或因素factor。如书中所介绍消协分析不同行业的服务质量，因此行业就可以称为因子。不同行业如零售业、旅游业、航空公司、家电制造业是行业这一因素的具体表现称为水平。每个行业下得到的被投诉次数称为观测值。由于这里只涉及行业一个因素，所以称为单因素4水平的试验。

水平

因素的不通表现称为水平。同时每个因子水平下得到的样本数据称为观测值。

误差

总误差SST=组内误差SSE+组间误差SSA

问题提法

设因素有k个水平，每个水平的均值分别用u1,u2,u3,…uk表示，要检验k个水平（总体）的均值是否相等，需要提出如下假设：

H0: u1 = u2 = u3 = … = uk 自变量对因变量没有显著影响

H1: u1,u2,u3,…uk不全相等自变量对因变量有显著影响

二、方差分析

方差分析

方差分析 analysis of variance,ANOVA 就是通过检验各总体的均值是否相等来判断分类类型自变量对数值型因变量是否有显著影响。

单因素方差分析

当方差分析只涉及一个分类型自变量时时称为单因素方差分析 one-way analysis of variance 。如要检验不同行业被投诉次数的均值是否相等，这里只涉及到行业一个因素，因而属于单因素方差分析。

数据结构

	A	B	C	D	E
1	观测值	因素1	因素2	…	因素k
2	（j）	A1	A2	…	AK
3	1	x11	x21	…	xk1
4	2	x12	x22	…	xk2
5	…	…	…	…	;;;;
6	n	x1n	x2n	…	xkn

用A表示因素，因素的k各水平（总体）分别用A1,A2,A3,…AK表示，每个观测值xij（i=1,2,3,4,…k,j=1,2,3,…n）表示第i个水平（总体）的第j个观测值

分析步骤

（1）提出假设

原假设所描述的是在自变量的取值分成的类中，因变量的均值均相等。
H0:μ1=μ2=...=μk,自变量对因变量没有显著影响 H_0: \mu_1=\mu_2=...=\mu_k , 自变量对因变量没有显著影响 H0:μ1=μ2=...=μk,自变量对因变量没有显著影响

H1:μi(i=1,2,3,4...k)不全相等，自变量对因变量有显著影响 H_1: \mu_i(i=1,2,3,4...k)不全相等，自变量对因变量有显著影响 H1:μi(i=1,2,3,4...k)不全相等，自变量对因变量有显著影响

（2）构造检验的统计量

(a)计算各样本的均值：
假设从第i个总体中抽取一个容量为ni的随机简单样本，令x‾i为第i个总体的样本均值，择优x‾i=∑j=1nixijni,i=1,2,...,k 假设从第i个总体中抽取一个容量为n_i的随机简单样本，令\overline{x}_i为第i个总体的样本均值，择优\overline{x}_i=\frac{\sum_{j=1}^{n_i}{x_{ij}}}{n_i},i=1,2,...,k 假设从第i个总体中抽取一个容量为ni的随机简单样本，令xi为第i个总体的样本均值，择优xi=ni∑j=1nixij,i=1,2,...,k

式中，ni为第i个总体的样本量；xij为第i个总体的第j个观测值。式中，n_i为第i个总体的样本量；x_{ij}为第i个总体的第j个观测值。式中，ni为第i个总体的样本量；xij为第i个总体的第j个观测值。

这里就相当于计算每个行业的均值。

（b）计算全部观测值的总均值
x‾‾=∑i=1k∑j=1nixijn=∑i=1knix‾in,n=n1+n2+...nk \overline{\overline{x}}=\frac{\sum_{i=1}^{k}\sum_{j=1}^{n_i}{x_{ij}}}{n}=\frac{\sum_{i=1}^{k}{n_i\overline{x}_i}}{n},n=n_1+n_2+...n_k x=n∑i=1k∑j=1nixij=n∑i=1knixi,n=n1+n2+...nk
©计算各误差平方和

方差分析中，需要计算的三个误差平方和，总体平方和，组间平方和（因素平方和），组内平方和（误差平方和或残差平方和）

1）总平方和sum of squares for total 记为SST。它是全部观测值xij与总体均值的误差平方和
SST=∑i=1k∑j=1ni(xij−x‾‾)2 SST=\sum_{i=1}^{k}{\sum_{j=1}^{n_i}{(x_{ij}-\overline{\overline{x}})^2}} SST=i=1∑kj=1∑ni(xij−x)2
2)组间平方和sum of squares for factor A ,记为SSA，它是各组均值与总体均值的误差平方和，反应各样本均值之间的差异程度，因此又称为因素平方和。
SSA=∑i=1kni(x‾i−x‾‾)2 SSA=\sum_{i=1}^{k}{n_i(\overline{x}_i-\overline{\overline{x}})^2} SSA=i=1∑kni(xi−x)2
3)组内平方和sum of squares for error ,记为SSE 。它是每个水平或组的各样本数据与其组均值的误差平方和，反映每个样本各观测值的离散状况，因此又称为误差平方和。该平方和反映了随机误差的大小。
SSE=∑i=1k∑j=1ni(xij−x‾i)2 SSE=\sum_{i=1}^{k}\sum_{j=1}^{n_i}{(x_{ij}-\overline{x}_i)^2} SSE=i=1∑kj=1∑ni(xij−xi)2
总平方和SST = 组间平方和SSA+ 组内平方和SSE，SSA对随机误差和系统误差的大小进行度量；SSE对随机误差的大小度量，因此SSE也称为残差变量，SSA为自变量效应或因子效应；SST为自变量效应加残差效应。

（d）计算统计量

SST的自由度为n-1,其中n为全部观测值得个数；

SSA的自由度为k-1,其中k为因素水平的个数，即总体的个数；

SSE为自由度为n-k。

SSA的均方也称为组间均方或组间方差，记为MSA，
MSA=组间平方和自由度=SSAk−1 MSA=\frac{组间平方和}{自由度}=\frac{SSA}{k-1} MSA=自由度组间平方和=k−1SSA
SSE的均方也称为组内均方或组内方差，记为MSE
MSE=组内平方和自由度=SSEn−k MSE=\frac{组内平方和}{自由度}=\frac{SSE}{n-k} MSE=自由度组内平方和=n−kSSE
将上述MSA和MSE进行对比，便得到所需要的检验统计量F。当H0为真时，二者的比值服从分子自由度为k-1，分母自由度为n-k的F分布，即
F=MSAMSE F(k−1,n−k) F=\frac{MSA}{MSE}~F(k-1,n-k) F=MSEMSA F(k−1,n−k)

（3）做出统计决策

根据给定的显著性水平a，在F分布表中查找与分子自由度df1=k-1,分母自由度df2=n-k相应的临界值Fa(k-1,n-k)

若F>Fa,则拒绝原假设H0，则影响显著;若F<Fa，则不拒绝原假设H0，即认为影响不显著。

关系强度的测量
R2=SSASST,当他们大的越多，表明他们关系就越强，反之则越弱。关系强度与相关系数r。 R^2 = \frac{SSA}{SST},当他们大的越多，表明他们关系就越强，反之则越弱。关系强度与相关系数r。 R2=SSTSSA,当他们大的越多，表明他们关系就越强，反之则越弱。关系强度与相关系数r。
针对方差分析中的多重比较，可以找到参考书进一步学习。

双因素方差分析

当方差分析中涉及两个分类型自变量时，称为双因素方差分析two-way analysis of variance。

双因素方差分析又根据两个因素之间是否有交互作用，分为无交互作用的双因素方差分析和有交互作用的双因素方差分析。前者：two-factor without replication ,后者： two-factor with repliction 。

无交互作用的双因素方差分析

数据结构

在这里插入图片描述

数据分为行因素和列因素。设行因素有k个水平，行1，行2，…，行k;列因素有r个水平，列1，列2…，列r。行因素和列因素每一个水平都可以搭配为一组，观察他们对试验数据的影响。共抽取kr个观察数据。这k*r个总体中的每一个总体都服从正太分布，且有相同的方差。
x‾i.是行因素的第i个水平下各观测值的平均值，其计算公式为x‾i.=∑j=1rxijr,i=1,2,...,k \overline{x}_i.是行因素的第i个水平下各观测值的平均值，其计算公式为 \overline{x}_i.=\frac{\sum_{j=1}^{r}{x_{ij}}}{r} , i = 1,2,...,k xi.是行因素的第i个水平下各观测值的平均值，其计算公式为xi.=r∑j=1rxij,i=1,2,...,k

x‾.j=∑i=1kxijk,j=1,2,..,k是列因素的第j个水平下各观测值的平均值。 \overline{x}_{.j}=\frac{\sum_{i=1}^{k}{x_{ij}}}{k} ,j=1,2,..,k是列因素的第j个水平下各观测值的平均值。 x.j=k∑i=1kxij,j=1,2,..,k是列因素的第j个水平下各观测值的平均值。

x‾‾是全部kr各样本数据的总平均值，x‾‾=∑i=1k∑j=1rxijkr \overline{\overline{x}}是全部kr各样本数据的总平均值，\overline{\overline{x}}=\frac{\sum_{i=1}^{k}\sum_{j=1}^{r}{x_{ij}}}{kr} x是全部kr各样本数据的总平均值，x=kr∑i=1k∑j=1rxij

分析步骤

(1)提出假设

为了检验两个因素的影响，需要对两个因素分别提出如下假设

对行因素提出的假设为：
H0:μ1=μ2=...=μi=...=μk行因素对因变量没有显著影响 H_0: \mu_1=\mu_2=...=\mu_i=...=\mu_k 行因素对因变量没有显著影响 H0:μ1=μ2=...=μi=...=μk行因素对因变量没有显著影响

H1:μi(i=1,2,...,k)不全相等行因素对因变量有显著影响 H_1: \mu_i (i=1,2,...,k)不全相等行因素对因变量有显著影响 H1:μi(i=1,2,...,k)不全相等行因素对因变量有显著影响

对列因素提出的假设为：
H0:μ1=μ2=...=μj=...=μr列因素对因变量没有显著影响 H_0: \mu_1=\mu_2=...=\mu_j=...=\mu_r 列因素对因变量没有显著影响 H0:μ1=μ2=...=μj=...=μr列因素对因变量没有显著影响

H1:μj(j=1,2,...,r)不全相等列因素对因变量有显著影响 H_1:\mu_j(j=1,2,...,r)不全相等列因素对因变量有显著影响 H1:μj(j=1,2,...,r)不全相等列因素对因变量有显著影响

（2）构造检验统计量

为检验H0是否成立，需要分别确定检验行因素和列因素的统计量。与单因素方差分析构造统计量的方法一样，这里需要从总平方和的分解入手。总平方和是全部样本观察值xij与总的样本平均值的误差平方和，记为SST

SST=∑i=1k∑j=1r(xij−x‾‾)2=∑i=1k∑j=1r((x‾i.−x‾‾)+(x‾.j−x‾‾)+(xij−x‾i.−x‾.j+x‾‾))2 SST=\sum_{i=1}^{k}\sum_{j=1}^{r}{(x_{ij}-\overline{\overline{x}})^2}=\sum_{i=1}^{k}\sum_{j=1}^{r}{((\overline{x}_{i.}-\overline{\overline{x}})+(\overline{x}_{.j}-\overline{\overline{x}})+(x_{ij}-\overline{x}_{i.}-\overline{x}_{.j}+\overline{\overline{x}}))^2} SST=i=1∑kj=1∑r(xij−x)2=i=1∑kj=1∑r((xi.−x)+(x.j−x)+(xij−xi.−x.j+x))2

SST=∑i=1k∑j=1r(x‾i.−x‾‾)2+∑i=1k∑j=1r(x‾.j−x‾‾)2+∑i=1k∑j=1r(xij−x‾i.−x‾.j+x‾‾)2+∑i=1k∑j=1r(2ab+2ac+2bc) SST = \sum_{i=1}^{k}\sum_{j=1}^{r}{(\overline{x}_{i.}-\overline{\overline{x}})^2}+\sum_{i=1}^{k}\sum_{j=1}^{r}{(\overline{x}_{.j}-\overline{\overline{x}})^2}+\sum_{i=1}^{k}\sum_{j=1}^{r}{(x_{ij}-\overline{x}_{i.}-\overline{x}_{.j}+\overline{\overline{x}})^2}+\sum_{i=1}^{k}\sum_{j=1}^{r}{(2ab + 2ac +2bc)} SST=i=1∑kj=1∑r(xi.−x)2+i=1∑kj=1∑r(x.j−x)2+i=1∑kj=1∑r(xij−xi.−x.j+x)2+i=1∑kj=1∑r(2ab+2ac+2bc)

最后一项没有证明他=0？？？最后一项没有证明他=0？？？最后一项没有证明他=0？？？

行因素所产生的误差平方和记为SSR=∑i=1k∑j=1r(x‾i.−x‾‾)2 行因素所产生的误差平方和记为SSR=\sum_{i=1}^{k}\sum_{j=1}^{r}{(\overline{x}_{i.}-\overline{\overline{x}})^2} 行因素所产生的误差平方和记为SSR=i=1∑kj=1∑r(xi.−x)2

列因素所产生的误差平方和SSC=∑i=1k∑j=1r(x‾.j−x‾‾)2 列因素所产生的误差平方和SSC=\sum_{i=1}^{k}\sum_{j=1}^{r}{(\overline{x}_{.j}-\overline{\overline{x}})^2} 列因素所产生的误差平方和SSC=i=1∑kj=1∑r(x.j−x)2

第三项为除行因素和列因素之外的剩余因素所产生的误差平方和，称为随机误差平方和SSE=∑i=1k∑j=1r(xij−x‾i.−x‾.j+x‾‾)2 第三项为除行因素和列因素之外的剩余因素所产生的误差平方和，称为随机误差平方和SSE=\sum_{i=1}^{k}\sum_{j=1}^{r}{(x_{ij}-\overline{x}_{i.}-\overline{x}_{.j}+\overline{\overline{x}})^2} 第三项为除行因素和列因素之外的剩余因素所产生的误差平方和，称为随机误差平方和SSE=i=1∑kj=1∑r(xij−xi.−x.j+x)2

SST=SSR+SSC+SSE

SST自由度为kr-1,SSR自由度为k-1，SSC自由度为r-1，

随机误差平方和自由度为(k-1)(r-1)
行因素均方为MSR=SSRk−1，列因素均方为MSC=SSCr−1,随机误差均方MSE=SSE(k−1)(r−1) 行因素均方为MSR=\frac{SSR}{k-1}，列因素均方为MSC=\frac{SSC}{r-1},随机误差均方MSE=\frac{SSE}{(k-1)(r-1)} 行因素均方为MSR=k−1SSR，列因素均方为MSC=r−1SSC,随机误差均方MSE=(k−1)(r−1)SSE

构造的行因素统计量FR=MSRMSE F(k−1,(k−1)(r−1)) 构造的行因素统计量F_R=\frac{MSR}{MSE} ~ F(k-1,(k-1)(r-1)) 构造的行因素统计量FR=MSEMSR F(k−1,(k−1)(r−1))

构造的列因素统计量FC=MSCMSE F(r−1,(k−1)(r−1)) 构造的列因素统计量F_C=\frac{MSC}{MSE}~F(r-1,(k-1)(r-1)) 构造的列因素统计量FC=MSEMSC F(r−1,(k−1)(r−1))

（3）做出统计决策
若FR>Fa，则拒绝H0,也就是行因素有显著性影响，并不是所有均值都相等；如FC>Fa,则拒绝H0，也就是列因素有显著性影响，并不是列所有均值都相等。若F_R>F_a，则拒绝H_0,也就是行因素有显著性影响，并不是所有均值都相等；如F_C>F_a,则拒绝H_0，也就是列因素有显著性影响，并不是列所有均值都相等。若FR>Fa，则拒绝H0,也就是行因素有显著性影响，并不是所有均值都相等；如FC>Fa,则拒绝H0，也就是列因素有显著性影响，并不是列所有均值都相等。

直接用Pvalue进行分析，如果用于检验行或列因素的Pvalue<a=0.05,则拒绝假设H0,认为对应影响显著直接用P_{value}进行分析，如果用于检验行或列因素的P_{value}<a=0.05,则拒绝假设H_0,认为对应影响显著直接用Pvalue进行分析，如果用于检验行或列因素的Pvalue<a=0.05,则拒绝假设H0,认为对应影响显著

关系强度的测量
R2=联合效应总效应=SSR+SSCSST R^2=\frac{联合效应}{总效应}=\frac{SSR+SSC}{SST} R2=总效应联合效应=SSTSSR+SSC

有交互作用的双因素方差分析：

有交互作用的步骤与无交互作用的双因素方差分析类似，但是计算SST SSR SSE 发生了变化，同时多了一个SSRC交互作用平方和。可以使用P_value与a比较。

协方差分析

协方差分析 analysis of covariance ,是讲回归分析与方差分析结合起来使用的一种分析方法。它先将定量的影响因素看做是自变量或称为协变量，建立因变量随自变量变化的回归方程。这样就可以利用回归方程吧因变量的变化中受定量因素的影响扣除掉，从而能较合理的比较因变量的总体均数之间是否有显著性的差异。
方差分析模型：yij=μi+eij,μi为因素第i个水平的效应，eij为随机误差方差分析模型：y_{ij}=\mu_i+e_{ij},\mu_i为因素第i个水平的效应，e_{ij}为随机误差方差分析模型：yij=μi+eij,μi为因素第i个水平的效应，eij为随机误差

同时收集到与y有密切关系的回归变量x，对应的方差分析模型为yij=μi+β(xij−x‾)+δij,β为y对x的回归系数，δij为随机误差同时收集到与y有密切关系的回归变量x，对应的方差分析模型为y_{ij}=\mu_i+\beta(x_{ij}-\overline{x})+\delta_{ij},\beta为y对x的回归系数，\delta_{ij}为随机误差同时收集到与y有密切关系的回归变量x，对应的方差分析模型为yij=μi+β(xij−x)+δij,β为y对x的回归系数，δij为随机误差

作者：rungedu

方差分析统计学方差

1024 个赞