方差分析模型概述
上节线性回归模型的自变量一般是连续变量,旨在探寻因变量与自变量的依赖关系。而本节的方差分析模型,其自变量是示性变量,只能取0、1两个值,用于比较两个或多个因素效应大小,在一些文献中也被称为试验设计模型 。
单向分类模型
以比较三种药治疗某种疾病的效果为例,药效度量指标为\(Y\) ,采用双盲实验法。设每种药有\(n\)个人服用,\(y_{ij}\)为服用第\(i\)种药的第\(j\)个人的药效测量值,则
其中\(\mu\)是总平均,\(\alpha_{i}\)表示第\(i\)种药的效应,\(e_{ij}\)是随机误差,其均值为0,方差相等且彼此不相关。该问题中只有“药品”这一个感兴趣因素(因子),其三个不同品种为因子的水平或“处理” ,此模型(1.2.1)称为单向分类模型或单因素方差分析模型,也可用矩阵记号表示
用\(y\),\(X\),\(\beta\)和\(e\)分别表示上式中的四个向量或矩阵,则上述模型具有形式
这和线性回归模型形式上完全一样,所不同的是,对现在情形,设计阵\(X\)的元素只能取\(1\)和\(0\)两个值. 除第一列外,设计阵\(X\)的每一列对应一种药品,若某列中某个位置是\(1\)或是\(0\),则表示对应的这个病人服用了或没服用该列对应的那种药. 也就是说,设计阵\(X\)中的元素\(x_{ij}(j > 1)\)只表示了对应的实验中某个处理效应的存在与否. 容易看出,在(1.2.2)中,设计阵的秩\(\text{rk}(X)=3\),它小于\(X\)的列数\(4\),我们称设计阵\(X\)是列降秩的,这是方差分析模型的一个特点.
两向分类 模型
假设在一次生产实验中,影响产品质量指标\(Y\)的有两个因素\(A\)和\(B\). 设因素\(A\)有\(a\)个水平,因素\(B\)有\(b\)个水平. 记\(y_{ij}\)表示在因素\(A\)的第\(i\)个水平,因素\(B\)的第\(j\)个水平时生产的产品质量测量值. 则\(y_{ij}\)可分解为
这里\(\mu\)仍为总平均,\(\alpha_{i}\)为因素\(A\)的第\(i\)个水平的效应,\(\beta_{j}\)为因素\(B\)的第\(j\)个水平的效应,\(e_{ij}\)为随机误差
随机区组设计模型也具有类似形式.
假设一农业实验中心从外地引进三种优良麦种,在大面积种植之前,先进行小范围试验以便选出适合本地气候条件的麦种.
我们可以把这三种小麦种植的浇水等条件控制在相同的状态,但是很难保证用于实验的土地肥沃程度都一样,为
了克服这一缺陷,我们先把实验用的土地分成若干小块,譬如5块,使每一小块土地肥沃程度基本上一样. 在实验设计中,把这种小块称为区组(block). 然后再把每一区组分成若干更小的块,称为试验单元.
现有三种小麦品种要比较,不妨就把每个区组分成三个试验单元. 随机区组设计要求,在每个区组中,每种小麦种在一个单元完全是随机的. 若用\(y_{ij}\)表示第\(i\)个区组种第\(i\)种小麦的那个试验单元的小麦产量,则\(y_{ij}\)就有分解式. 这时\(\alpha_{i}\)就是第\(i\)种小麦(即处理,treatment)的效应. \(\beta_{j}\)是第\(j\)个区组的效应. 因此随机区组设计模型就是一个两向分类模型.
在试验设计中,区组是一个很重要的概念.
为了更清楚的掌握它的本质,我们再举一个例子.
假设我们用\(a\)种工艺加工一些产品,现在要比较这\(a\)种工艺的优劣.
用\(y_{ij}\)表示第\(i\)种工艺加工的第\(j\)件产品质量,\(\alpha_{i}\)为第\(i\)种工艺的效应. 那么\(y_{ij}\)可分解为:
这是一个单向分类模型.
但是,如果我们是用\(b\)台设备去检测它们的质量,那么就应该把这\(b\)台设备的差异考虑进去. 这样\(b\)台设备就成了区组,这时\(y_{ij}\)就可表示为\(y_{ij}=\mu+\alpha_{i}+e_{ij}\)形式,其中\(\beta_{j}\)是第\(j\)台设备的效应.
正是由于上述原因,往往我们也把模型\(y_{ij}=\mu+\alpha_{i}+e_{ij}\)称为随机区组设计模型,并把\(\alpha_{i}\)和\(\beta_{j}\)分别泛称为处理效应和区组效应.
在一般情况下,这两种效应不是同等看待的. 我们主要兴趣放在处理效应上,而区组这个因素的引入,往往是为了缩小分析误差. 当然,也有例外,在一些问题中,区组效应也可能是我们所关心的.
具有交互效应的两向分类模型
因素\(A\)和因素\(B\)的效应具有可加性. 因为在分解式
中,因素\(A\)的第\(i\)个水平和因素\(B\)的第\(j\)个水平对\(y_{ij}\)的贡献是\(\alpha_{i}+\beta_{j}\),它是各自水平效应之和.
但是,在一些实际问题中,这种情况不总是成立的. 例如在化工试验中,若因素\(A\)表示化学反应的温度,因素\(B\)表示化学反应的压力,两者对化学反应的质量或产量\(Y\)的贡献一般不具有可加性. 如果对每一个水平组合\((i,j)\)重复\(c\)次试验,这时一个合理模型
这里\(\gamma_{ij}\)称为因素\(A\)的第\(i\)个水平和因素\(B\)的第\(j\)个水平的交互效应.
它的出现表明了因素\(A\)的第\(i\)个水平和因素\(B\)的第\(j\)个水平对\(y_{ij}\)的联合贡献,并不是\(\alpha_{i}\)和\(\beta_{j}\)的简单相加,而是多出了一个部分. 为了叙述方便起见,我们把\(\alpha_{i}\)称为因素\(A\)的第\(i\)个水平的主效应,同理称\(\beta_{j}\)为因素\(B\)的第\(j\)个水平的主效应.
在模型\(y_{ijk}=\mu+\alpha_{i}+\beta_{j}+\gamma_{ij}+e_{ijk}\)中,对因素\(A\)和\(B\)的每种水平组合\((i,j)\),重复观测次数都是\(c\),这样的模型称为平衡模型(balanced model).
在实际试验中,由于种种客观原因,例如试验者退出试验,试验个体(动物)死亡,或生产事故而导致对每种水平组合所获得的观测数据个数不相等,这时称对应模型为非平衡的(unbalanced model).
三向分类模型
读者不难想象,如果试验中有\(A,B,C\)三个因素,它们的水平数分别为\(a,b,c\),如果它们之间都没有交互效应,那么因变量的观测值可分解为
这里\(\alpha_{i},\beta_{j}\)和\(\gamma_{k}\)分别是因素\(A\)的第\(i\)个水平,因素\(B\)的第\(j\)个水平和因素\(C\)的第\(k\)个水平的主效应,对于每种水平组合\((i,j,k)\),试验重复次数都是\(d\),则模型是平衡的. 如果对水平组合\((i,j,k)\)试验重复次数为\(n_{ijk}\),它们不必相等,即模型就是非平衡的.
拉丁方设计
在试验设计中,有一种设计叫拉丁方设计(latin square design),它可以表示为三向分类模型.
所谓拉丁方,乃是用\(n\)个字母(或数字)排成的一个方块. 它的每行每列包含\(n\)个字母中每个字母恰好一次. 由于当初是用拉丁字母排列这种方块的,于是,称其为拉丁方. 用来排拉丁方的不同字母的个数,称为拉丁方的阶.
例如,下面分别是三阶和四阶拉丁方.
用三阶拉丁方可以安排三因素的试验.
例如,把第\(i\)行对应于因素甲的第\(i\)水平,第\(j\)列对应于因子乙的第\(j\)水平,中间的字母\(A,B,C\)分别对应于因子丙的三个水平.
这样,我们就排出9个试验,如表
因素乙 | 1 | 2 | 3 |
---|---|---|---|
因素甲1 | \(A^{(1)}\) | \(B^{(2)}\) | \(C^{(3)}\) |
因素甲2 | \(B^{(4)}\) | \(C^{(5)}\) | \(A^{(6)}\) |
因素甲3 | \(C^{(7)}\) | \(A^{(8)}\) | \(B^{(9)}\) |
令\(k_{ij}=k(i,j)\)表示由表惟一确定的由集合\(\{i,j\}\)到\(\{1,2,3\}\)与集合\(\{A,B,C\}\)的一一映射。
例如\(k_{23}=k(2,3)=A\). 若用\(y_{ijk_{ij}}\)表示因素甲、乙、丙的第\(i,j,k_{ij}\)水平下的观测值,用\(\alpha_{i},\beta_{j}\)和\(\gamma_{k_{ij}}\)分别表示因素甲、乙、丙的第\(i,j,k_{ij}\)水平下的效应,在不存在无交互效应,(i = 1,2,3) ,(j = 1,2,3) 的情况下,有三向分类模型
对于文中后三个例子(具有交互效应的两向分类模型、无交互效应的三向分类模型、拉丁方设计相关模型),引入适当矩阵记号,都能写成\(y = X\beta + e\) 的形式。
此时设计阵\(X\) 元素\(x_{ij}\) 只取(0)和(1)两个值,且\(\text{rk}(X)\)小于\(X\)的列数,即\(X\)是列降秩的。