第四节 方差分析
方差分析(analysis of variance,简写为ANOV或ANOVA)可用于两个或两个以上样本均数的比较。应用时要求各样本是相互独立的随机样本;各样本来自正态分布总体且各总体方差相等。方差分析的基本思想是按实验设计和分析目的把全部观察值之间的总变异分为两部分或更多部分,然后再作分析。常用的设计有完全随机设计和随机区组设计的多个样本均数的比较。
一、完全随机设计的多个样本均数的比较
又称单因素方差分析。把总变异分解为组间(处理间)变异和组内变异(误差)两部分。目的是推断k个样本所分别代表的μ1,μ2,……μk是否相等,以便比较多个处理的差别有无统计学意义。其计算公式见表19-6。
表19-6 完全随机设计的多个样本均数比较的方差分析公式
变异来源 离均差平方和SS 自由度v 均方MS F 总 ΣX2-C* N-1 组间(处理组间)
k-1 SS组间/v组间 MS组间/MS组间 组内(误差) SS总-SS组间 N-k SS组内/v组内
*C=(ΣX)2/N=Σni,k为处理组数
表19-7 F值、P值与统计结论
α F值 P值 统计结论 0.05 <F0.05(v1.V2) >0.05 不拒绝H0,差别无统计学意义 0.05 ≥F0.05(v1.V2) ≤0.05 拒绝H0,接受H1,差别有统计学意义 0.01 ≥F0.01(v1.V2) ≤0.01 拒绝H0,接受H1,差别有高度统计学意义方差分析计算的统计量为F,按表19-7所示关系作判断。
例19.9 某湖水不同季节氯化物含量测量值如表19-8,问不同季节氯化物含量有无差别?
表19-8 某湖水不同季节氯化物含量(mg/L)
Xij 春 夏 秋 冬 22.6 19.1 18.9 19.0 22.8 22.8 13.6 16.9 21.0 24.5 17.2 17.6 16.9 18.0 15.1 14.8 20.0 15.2 16.6 13.1 21.9 18.4 14.2 16.9 21.5 20.1 16.7 16.2 21.2 21.2 19.6 14.8 ΣXij
j 167.9 159.3 131.9 129.3 588.4(ΣX) ni 8 8 8 8 32(N) Xi 20.99 19.91 16.49 16.16 ΣX2ijj
3548.51
3231.95
2206.27
2114.11 11100.84(ΣX2)
H0:湖水四个季节氯化物含量的总体均数相等,即μ1=μ2=μ3=μ4
H1:四个总体均数不等或不全相等
α=0.05
先作表19-8下半部分的基础计算。
C= (Σx)2/N=(588.4)2/32=10819.205
SS总=Σx2-C=11100.84-10819.205=281.635
V总=N-1=31

V组间=k-1=4-1=3
SS组内=SS总-SS组间=281.635-141.107=140.465
V组内=N-k=32-4=28
MS组间=SS组间/v组间=141.107/3=47.057
MS组内=SS组内/v组内=140.465/28=5.017
F=MS组间/MS组内=47.057/5.017=9.380
以v1(即组间自由度)=3,v2(即组内自由度)=28查附表19-2,F界值表,得F0.05(3,28)=2.95,F0.01(3,28)=4.57。本例算得的F=9.380>F0.01(3,28),P<0.01,按α=0.05检验水准拒绝H0,接受H1,可认为湖水不同季节的氯化物含量不等或不全相等。必要时可进一步和两两比较的q检验,以确定是否任两总体均数间不等。
资料分析时,常把上述计算结果列入方差分析表内,如表19-9。
表19-9 例19.9资料的方差分析表
变异来源 SS v MS F P 组间 141.170 3 47.057 9.38 <0.01 组内 140.465 28 5.017 总 281.635 31二、随机区组(配伍组)设计的多个样本均数比较
又称两因素方差分析。把总变异分解为处理间变异、区组间变异及误差三部分。除推断k个样本所代表的总体均数,μ1,μ2,……μk是否相等外,还要推断b个区组所代表的总体均数是否相等。也就是说,除比较多个处理的差别有无统计学意义外,还要比较区组间的差别有无统计学意义。该设计考虑了个体变异对处理的影响,故可提高检验效率。
表19-10随机区组设计的多个样本均数比较的方差分析公式
变异来源 离均差平方和SS 自由度v 均方MS F 总 ΣX2-C N-1 处理间
k-1
SS处理/v处理
MS处理/MS误差
区组间
b-1
SS区组/v区组
MS区组MS误差
误差
SS总-SS处理-SS区组
V总-v处理-v区组
SS误差/v误差
C、k、N的意义同表19-6,b为区组数
例19.10为研究酵解作用对血糖浓度的影响,从8名健康人中抽血并制成血滤液。每个受试者的血滤液被分成4份,再随机地把4份血滤液分别放置0,45,90,135分钟,测定其血溏浓度(表19-11),试问放置不同时间的血糖浓度有无差别?
处理间:
H0:四个不同时间血糖浓度的总体均数相等,即μ1=μ2=μ3=μ4
表19-11 血滤放置不同时间的血糖浓度(mmol/L)
区组号 放置时间(分) 受试者小计
ΣXij
j 0 45 90 135 1 5.27 5.27 4.94 4.61 20.09 2 5.27 5.22 4.88 4.66 20.03 3 5.88 5.83 5.38 5.00 22.09 4 5.44 5.38 5.27 5.00 21.09 5 5.66 5.44 5.38 4.88 21.36 6 6.22 6.22 5.61 5.22 23.27 7 5.83 5.72 5.38 4.88 21.81 8 5.27 5.11 5.00 4.44 19.82 ΣXij
j 44.84 44.19 41.84 38.69 169.56(ΣX) Ni 8 8 8 8 32(N) Xi 5.6050 5.5238 5.2300 4.8363 ΣX2ij
j 252.1996 245.0671 219.2962 187.5585 904.1214(ΣX2)
H1:四个总体均数不等或不全相等
α=0.05
区组间:
H0:八个区组的总体均数相等,即μ1=μ2=……μ8
H1:八个区组的总体均数不等或不全相等
α=0.05
先作表19-11下半部分和右侧一栏的基本计算。
C=(ΣX)2/N=(169.56)2/32=898.45605
SS总=ΣX2-C=904.1214-898.45605=5.66535
V总=N-1=32-1=31

V处理=k-1=4-1=3

V区组=b-1=8-1=7
SS误差=SS总-SS处理-SS区组=5.66535-2.90438-2.49800=0.26297
V误差=(k-1)(b-1)=3×7=21
MS处理=SS处理/v处理=2.90438/3=0.9681
MS区组=SS区组/v区组=2.49800/7=0.3569
MS误差=SS误差/v误差=0.26297/21=0.0125
F处理=MS处理/MS误差=0.9681/0.0125=77.448
F区组=MS区组/MS误差=0.3569/0.0125=28.552
推断处理间的差别,按v1=3,v2=21查F界值表,得F0.005(3,21)=3.07,F0.01(3,21)=4.87,P<0.01;推断区组间的差别,按v1=7,v2=21查F界值表,得F0.05(7,21)=2.49,F0.01(7,21)=3.64,P<0.01。按α=0.05检验水准皆拒绝H0,接受H1,可认为放置时间长短会影响血糖浓度且不同受试者的血糖浓度亦有差别。但尚不能认为任两个不同放置时间的血糖浓度总体均数皆有差别,必要时可进一步作两两比较的q检验。