方差分析(Analysis of Variance, ANOVA)用于检验多个总体均值是否相等。
其核心思想是比较:
- 组间变异(不同组均值之间的差异,解释为“因素效应”)
- 组内变异(组内个体间的随机差异,即“误差”)
记第 i 组第 j 个观测值为 Yij,方差分析要判断:
不同组的平均值 μi(总体均值)是否都相同?
当组数 ≥ 3,若用多次 t 检验,会导致:
ANOVA 提供“一次整体检验”来判断:
H0: μ1=μ2=⋯=μk
是否成立。
其中 k 表示组数(因素水平数)。
模型写为:
Yij=μ+αi+εij
其中:
- μ:总体均值(基准平均水平)
- αi:因素第 i 水平的效应(组均值相对 μ 的偏移)
- εij:随机误差项(独立、均值 0、方差 σ2)
第 i 组样本均值记为 Xˉi,所有样本的总体平均记为 Xˉ。
总变异可以拆分为:
SST=SSB+SSW
其中:
SST(Total Sum of Squares)总平方和
衡量所有数据偏离总体均值 Xˉ 的程度。
SSB(Between Groups)组间平方和
衡量各组均值 Xˉi 相对总体均值的差异,用来度量“因素效应”。
SSB=i=1∑kni(Xˉi−Xˉ)2
其中 ni 为第 i 组的样本量。
SSW(Within Groups)组内平方和
衡量每组内的随机误差:
SSW=i=1∑kj=1∑ni(Yij−Xˉi)2
自由度:
- 组间自由度:dfB=k−1
- 组内自由度:dfW=N−k
- 总自由度:dfT=N−1
其中 N 为总样本量,N=∑ni,k为组数。
均方(Mean Square)是平方和除以自由度:
MSB=dfBSSB,MSW=dfWSSW
F 值定义为:
F=MSWMSB
含义:
- 若组间变异 (MSB) 远大于组内变异 (MSW)
→ F 大
→ 说明因素效应显著。
p 值定义为在 H0(均值相等)成立下:
p=P(F(dfB,dfW)≥Fobs)
若 p<α(通常 α=0.05)则拒绝 H0。
- 计算组均值 Xˉi 与总体均值 Xˉ
- 计算 SSB,SSW,SST
- 分配自由度:k−1, N−k, N−1
- 计算均方 MSB, MSW
- 计算 F 值
- 计算 p 值
- 判断是否拒绝原假设
数据(三种教学方法):
- A:8, 9, 6, 7
- B:5, 4, 6, 5
- C:9, 10, 8, 9
每组 n=4,组数 k=3,总样本 N=12。
XˉA=7.5,XˉB=5.0,XˉC=9.0
总体均值:
Xˉ=1286=7.17
SSB≈4(0.332)+4(2.172)+4(1.832)=32.67
由于每组与各自均值偏差平方和分别为:
故:
SSW=5+2+2=9
SST=SSB+SSW=32.67+9=41.67
- dfB=k−1=2
- dfW=N−k=9
- dfT=11
MSB=232.67=16.33
MSW=99=1.00
F=1.0016.33=16.33
通过 F 分布:
p=P(F(2,9)≥16.33)≈0.001
| Source | SS | df | MS | F | p |
|---|
| Between Groups | 32.67 | 2 | 16.33 | 16.33 | 0.001 |
| Within Groups | 9.00 | 9 | 1.00 | — | — |
| Total | 41.67 | 11 | — | — | — |
结论:教学方法对成绩的影响显著。
当存在两个因素(如肥料 A、灌溉 B)时,模型可检验:
- A 的主效应
- B 的主效应
- A×B 的交互效应(因素之间是否互相影响)
方差分解:
SST=SSA+SSB+SSAB+SSE
其中:
- SSA:因素 A 对均值差异的解释部分
- SSB:因素 B 的效应
- SSAB:交互作用的效应
- SSE:误差平方和
当有三个因素(如温度 A、压力 B、催化剂 C)时,可检验:
- A、B、C 三个主效应
- 三个二阶交互:A×B、A×C、B×C
- 一个三阶交互:A×B×C
方差分解:
SST=SSA+SSB+SSC+SSAB+SSAC+SSBC+SSABC+SSE
每一部分都有自己的自由度、均方和 F 检验。
方差分析核心逻辑:
- 将总方差拆分为组间(因素效应)+ 组内(误差)
- 计算 F=MSB/MSW,比较信号与噪声
- p 值来自 F 分布右尾概率
- 显著则拒绝均值相等的原假设
扩展形式(双因素、三因素)仅是在同一框架下增加主效应与交互效应的分解。