方差分析模型(ANOVA)可以看成是线性模型的一类,但它重点考虑的是离散自变量对连续因变量的影响。
基本模型
我们有
如果令
模型求解
我们直接把他看成多元线性回归问题,自变量
于是有最优估计(请自行推导):
ANOVA 表
记
来源 | 自由度 | 平方和 | 平方和均值 |
---|---|---|---|
处理组(Treatments) | |||
误差(Error) | |||
合计 |
假设检验
-检验
-检验
传统的
独立样本
检验和配对样本 检验的主要区别是样本之间有无配对关系。如果是把一堆人平均分成两组,就是独立样本,如果是在同一个人身上先后测了两次数据,则应该是配对样本。独立样本 检验的模型是 ,而配对样本则是 . 这导致了自由度直接差了 2 倍。本文讨论的 ANOVA 可以看成是独立样本 检验的拓展,组数是 2 的 ANOVA 和独立样本 检验是等价的。
多重检验
如果我们想要检验多组数据之间有无差异,比如
Bonferroni Method
简单粗暴的方法:如果一共做
Tukey Method
我们先介绍 studentized range q 统计量。设我们从分布 ptukey
得到。
后来 Karmer 将其推广到每组样本数不同的情况(Karmer,1956)——把
对比检验
我们可以推广普通
随机效应模型浅谈
基本模型
这个例子来自[3]。假设我们现在要调查一棵萝卜的含钙量。先验知识告诉我们,只要随便取一片叶子测定叶子的含钙量,就可以代表整颗萝卜的含钙量。我们取了 4 片叶子,每片进行了 4 次测试,得到了 16 个数据。
我们关注的并不是对比叶片之间的差异,而是想得到整颗萝卜的含钙量。不同的叶片在这里不视为 treatment,而视为 block。假设一共
ANOVA 表
这里我们不加证明地给出 ANOVA 表。
证法类似,写矩阵硬算就行,挺麻烦的,还需要计算技巧。这里最后要落到
维的独立正态分布上, 个 和 个 . 所以矩阵就不是正方形的了,不过 仍然是正方形的。注意只有在 相等时, 才是卡方分布,否则它只是方差不同的几个正态分布的和。
对于
来源 | 自由度 | 平方和 | 平方和均值(MS) | E(MS) |
---|---|---|---|---|
区组(Block) | ||||
误差(Error) | ||||
合计 |
如果
有了这个,我们可以给出方差的无偏估计(
注:
-检验
此时我们关注的是
参考文献
- https://en.wikipedia.org/wiki/Tukey%27s_range_test
- Karmer, C. Y. (1956). Extension of multiple range tests to group means with unequal numbers of replication. Biometrics, 12, 307-310.
- https://faculty.franklin.uga.edu/dhall/sites/faculty.franklin.uga.edu.dhall/files/STAT8200-Fall13-lec2.pdf