方差分析模型2

news/2025/2/26 13:56:50/文章来源:https://www.cnblogs.com/redufa/p/18738326

方差分析模型概述

上节线性回归模型的自变量一般是连续变量,旨在探寻因变量与自变量的依赖关系。而本节的方差分析模型,其自变量是示性变量,只能取0、1两个值,用于比较两个或多个因素效应大小,在一些文献中也被称为试验设计模型 。

单向分类模型

以比较三种药治疗某种疾病的效果为例,药效度量指标为\(Y\) ,采用双盲实验法。设每种药有\(n\)个人服用,\(y_{ij}\)为服用第\(i\)种药的第\(j\)个人的药效测量值,则

\[y_{ij}=\mu+\alpha_{i}+e_{ij} \quad i = 1,2,3 \quad j = 1,\cdots,n \]

其中\(\mu\)是总平均,\(\alpha_{i}\)表示第\(i\)种药的效应,\(e_{ij}\)是随机误差,其均值为0,方差相等且彼此不相关。该问题中只有“药品”这一个感兴趣因素(因子),其三个不同品种为因子的水平或“处理” ,此模型(1.2.1)称为单向分类模型或单因素方差分析模型,也可用矩阵记号表示

\[\begin{pmatrix} y_{11} \\ \vdots \\ y_{1n} \\ y_{21} \\ \vdots \\ y_{2n} \\ y_{31} \\ \vdots \\ y_{3n} \end{pmatrix} = \begin{pmatrix} 1 & 1 & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 1 & 1 & 0 & 0 \\ 1 & 0 & 1 & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 1 & 0 & 1 & 0 \\ 1 & 0 & 0 & 1 \\ \vdots & \vdots & \vdots & \vdots \\ 1 & 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} \mu \\ \alpha_{1} \\ \alpha_{2} \\ \alpha_{3} \end{pmatrix} + \begin{pmatrix} e_{11} \\ \vdots \\ e_{1n} \\ e_{21} \\ \vdots \\ e_{2n} \\ e_{31} \\ \vdots \\ e_{3n} \end{pmatrix} \]

\(y\)\(X\)\(\beta\)\(e\)分别表示上式中的四个向量或矩阵,则上述模型具有形式

\[y = X\beta + e \]

这和线性回归模型形式上完全一样,所不同的是,对现在情形,设计阵\(X\)的元素只能取\(1\)\(0\)两个值. 除第一列外,设计阵\(X\)的每一列对应一种药品,若某列中某个位置是\(1\)或是\(0\),则表示对应的这个病人服用了或没服用该列对应的那种药. 也就是说,设计阵\(X\)中的元素\(x_{ij}(j > 1)\)只表示了对应的实验中某个处理效应的存在与否. 容易看出,在(1.2.2)中,设计阵的秩\(\text{rk}(X)=3\),它小于\(X\)的列数\(4\),我们称设计阵\(X\)是列降秩的,这是方差分析模型的一个特点.

两向分类 模型

假设在一次生产实验中,影响产品质量指标\(Y\)的有两个因素\(A\)\(B\). 设因素\(A\)\(a\)个水平,因素\(B\)\(b\)个水平. 记\(y_{ij}\)表示在因素\(A\)的第\(i\)个水平,因素\(B\)的第\(j\)个水平时生产的产品质量测量值. 则\(y_{ij}\)可分解为

\[y_{ij} = \mu+\alpha_{i}+\beta_{j}+e_{ij},\quad i = 1,\cdots,a \quad j = 1,\cdots,b \]

这里\(\mu\)仍为总平均,\(\alpha_{i}\)为因素\(A\)的第\(i\)个水平的效应,\(\beta_{j}\)为因素\(B\)的第\(j\)个水平的效应,\(e_{ij}\)为随机误差

随机区组设计模型也具有类似形式.

假设一农业实验中心从外地引进三种优良麦种,在大面积种植之前,先进行小范围试验以便选出适合本地气候条件的麦种.

我们可以把这三种小麦种植的浇水等条件控制在相同的状态,但是很难保证用于实验的土地肥沃程度都一样,为
了克服这一缺陷,我们先把实验用的土地分成若干小块,譬如5块,使每一小块土地肥沃程度基本上一样. 在实验设计中,把这种小块称为区组(block). 然后再把每一区组分成若干更小的块,称为试验单元.

现有三种小麦品种要比较,不妨就把每个区组分成三个试验单元. 随机区组设计要求,在每个区组中,每种小麦种在一个单元完全是随机的. 若用\(y_{ij}\)表示第\(i\)个区组种第\(i\)种小麦的那个试验单元的小麦产量,则\(y_{ij}\)就有分解式. 这时\(\alpha_{i}\)就是第\(i\)种小麦(即处理,treatment)的效应. \(\beta_{j}\)是第\(j\)​个区组的效应. 因此随机区组设计模型就是一个两向分类模型.

在试验设计中,区组是一个很重要的概念.

为了更清楚的掌握它的本质,我们再举一个例子.

假设我们用\(a\)种工艺加工一些产品,现在要比较这\(a\)种工艺的优劣.

\(y_{ij}\)表示第\(i\)种工艺加工的第\(j\)件产品质量,\(\alpha_{i}\)为第\(i\)种工艺的效应. 那么\(y_{ij}\)可分解为:

\[y_{ij}=\mu+\alpha_{i}+e_{ij} \quad i = 1,\cdots,a \quad j = 1,\cdots,b \]

这是一个单向分类模型.

但是,如果我们是用\(b\)台设备去检测它们的质量,那么就应该把这\(b\)台设备的差异考虑进去. 这样\(b\)台设备就成了区组,这时\(y_{ij}\)就可表示为\(y_{ij}=\mu+\alpha_{i}+e_{ij}\)形式,其中\(\beta_{j}\)是第\(j\)台设备的效应.
正是由于上述原因,往往我们也把模型\(y_{ij}=\mu+\alpha_{i}+e_{ij}\)称为随机区组设计模型,并把\(\alpha_{i}\)\(\beta_{j}\)分别泛称为处理效应和区组效应.

在一般情况下,这两种效应不是同等看待的. 我们主要兴趣放在处理效应上,而区组这个因素的引入,往往是为了缩小分析误差. 当然,也有例外,在一些问题中,区组效应也可能是我们所关心的.

具有交互效应的两向分类模型

因素\(A\)和因素\(B\)的效应具有可加性. 因为在分解式

\[y_{ij}=\mu+\alpha_{i}+\beta_{j}+e_{ij} \]

中,因素\(A\)的第\(i\)个水平和因素\(B\)的第\(j\)个水平对\(y_{ij}\)的贡献是\(\alpha_{i}+\beta_{j}\),它是各自水平效应之和.

但是,在一些实际问题中,这种情况不总是成立的. 例如在化工试验中,若因素\(A\)表示化学反应的温度,因素\(B\)表示化学反应的压力,两者对化学反应的质量或产量\(Y\)的贡献一般不具有可加性. 如果对每一个水平组合\((i,j)\)重复\(c\)次试验,这时一个合理模型

\[y_{ijk}=\mu+\alpha_{i}+\beta_{j}+\gamma_{ij}+e_{ijk}\quad i = 1,\cdots,a \quad j = 1,\cdots,b \quad k = 1,\cdots,c \]

这里\(\gamma_{ij}\)称为因素\(A\)的第\(i\)个水平和因素\(B\)的第\(j\)个水平的交互效应.

它的出现表明了因素\(A\)的第\(i\)个水平和因素\(B\)的第\(j\)个水平对\(y_{ij}\)的联合贡献,并不是\(\alpha_{i}\)\(\beta_{j}\)的简单相加,而是多出了一个部分. 为了叙述方便起见,我们把\(\alpha_{i}\)称为因素\(A\)的第\(i\)个水平的主效应,同理称\(\beta_{j}\)为因素\(B\)的第\(j\)个水平的主效应.

在模型\(y_{ijk}=\mu+\alpha_{i}+\beta_{j}+\gamma_{ij}+e_{ijk}\)中,对因素\(A\)\(B\)的每种水平组合\((i,j)\),重复观测次数都是\(c\),这样的模型称为平衡模型(balanced model).

在实际试验中,由于种种客观原因,例如试验者退出试验,试验个体(动物)死亡,或生产事故而导致对每种水平组合所获得的观测数据个数不相等,这时称对应模型为非平衡的(unbalanced model).

三向分类模型

读者不难想象,如果试验中有\(A,B,C\)三个因素,它们的水平数分别为\(a,b,c\),如果它们之间都没有交互效应,那么因变量的观测值可分解为

\[y_{ijkl}=\mu+\alpha_{i}+\beta_{j}+\gamma_{k}+e_{ijkl} \\ i = 1,\cdots,a \quad j = 1,\cdots,b \quad k = 1,\cdots,c\quad l = 1,\cdots,d \]

这里\(\alpha_{i},\beta_{j}\)\(\gamma_{k}\)分别是因素\(A\)的第\(i\)个水平,因素\(B\)的第\(j\)个水平和因素\(C\)的第\(k\)个水平的主效应,对于每种水平组合\((i,j,k)\),试验重复次数都是\(d\),则模型是平衡的. 如果对水平组合\((i,j,k)\)试验重复次数为\(n_{ijk}\)​,它们不必相等,即模型就是非平衡的.


拉丁方设计

在试验设计中,有一种设计叫拉丁方设计(latin square design),它可以表示为三向分类模型.

所谓拉丁方,乃是用\(n\)个字母(或数字)排成的一个方块. 它的每行每列包含\(n\)​​​​个字母中每个字母恰好一次. 由于当初是用拉丁字母排列这种方块的,于是,称其为拉丁方. 用来排拉丁方的不同字母的个数,称为拉丁方的阶.

例如,下面分别是三阶和四阶拉丁方.

\[A & B & C \qquad \qquad A&B&C&D\\ B & C & A \qquad \qquad B&C&D&A\\ C & A & B \qquad \qquad C&D&A&B\\ & & \qquad \qquad D&A&B&C \]

用三阶拉丁方可以安排三因素的试验.

例如,把第\(i\)行对应于因素甲的第\(i\)水平,第\(j\)列对应于因子乙的第\(j\)水平,中间的字母\(A,B,C\)分别对应于因子丙的三个水平.

这样,我们就排出9个试验,如表

因素乙 1 2 3
因素甲1 \(A^{(1)}\) \(B^{(2)}\) \(C^{(3)}\)
因素甲2 \(B^{(4)}\) \(C^{(5)}\) \(A^{(6)}\)
因素甲3 \(C^{(7)}\) \(A^{(8)}\) \(B^{(9)}\)

\(k_{ij}=k(i,j)\)表示由表惟一确定的由集合\(\{i,j\}\)\(\{1,2,3\}\)与集合\(\{A,B,C\}\)的一一映射。

例如\(k_{23}=k(2,3)=A\). 若用\(y_{ijk_{ij}}\)表示因素甲、乙、丙的第\(i,j,k_{ij}\)水平下的观测值,用\(\alpha_{i},\beta_{j}\)\(\gamma_{k_{ij}}\)分别表示因素甲、乙、丙的第\(i,j,k_{ij}\)水平下的效应,在不存在无交互效应,(i = 1,2,3) ,(j = 1,2,3) 的情况下,有三向分类模型

\[y_{ij k_{ij}}=\mu+\alpha_{i}+\beta_{j}+\gamma_{k_{ij}}+e_{ij k_{ij}} \]

对于文中后三个例子(具有交互效应的两向分类模型、无交互效应的三向分类模型、拉丁方设计相关模型),引入适当矩阵记号,都能写成\(y = X\beta + e\) 的形式。
此时设计阵\(X\) 元素\(x_{ij}\) 只取(0)和(1)两个值,且\(\text{rk}(X)\)小于\(X\)的列数,即\(X\)是列降秩的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/890094.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

drawio使用阿里云最新图标

简介 draw.io是一款免费的在线绘图工具,可用于创建各种类型的图表、流程图、组织结构图、网络拓扑图等。它具有易于使用的直观界面和丰富的图形库,支持与Google Drive、OneDrive、Dropbox等云存储服务集成。用户可以直接在浏览器中使用draw.io,也可以将其安装为Chrome应用程…

VulnHub-DC-6靶机-wpscan爆破+命令注入反弹shell+nmap提权

一、环境搭建 选择扫描虚拟机选择靶机路径这里如果出现报错,无法导入,如VMware出现配置文件 .vmx 是由VMware产品创建,但该产品与此版 VMware workstation 不兼容,因此无法使用(VMware版本不兼容问题),可以修改.vmx文件版本和虚拟机一致二、信息收集 扫描ip nmap -sn 19…

浅析Golang的内存管理(中篇): go runtime的内存管理模型与内存分配器

文章目录go runtime的基本内存模型 三级存储体系(MCache,MCentral,Mheap) 对象分配流程 一、go runtime的基本内存模型go runtime 借鉴了C++的内存模型和TCMalloc(Thread-Caching Malloc)内存分配机制,再开始之前,先了解一些go runtime对内存对象抽象的名词概念,它们分…

浅析Golang的内存管理(上篇):操作系统内存管理

文章目录计算机存储体系介绍 虚拟存储器 内存管理单元与页式存储管理 CPU发起一次访存的全过程 一、计算机存储体系介绍从计算机的组成角度来看,计算机的存储分为,寄存器-高速缓存-主存储器(泛指内存)-本地存储(磁盘)-外部存储(光盘、云盘等),由下到上,运行速度越来…

SVN介绍与安装

一、svn介绍 1、svn是一个版本控制工具; -svN是subversion的简称:是一个开放源代码的版本控制系统,通过采用分支管理系统的高效管理,简而言之就是用于多个人共同开发同一个项目,实现共享资源,实现最终集中式的管理。 -SVN的作用:在项目组当中对需求规格说明书、测试用例、…

提示词装饰器:一种改善AI生成回复的简单方式

通过结构化提示解锁AI的全部潜力 人工智能是一种非常强大的工具,但其回应的质量往往取决于我们与其沟通的有效性。如果你曾经在从AI模型获得精确且结构良好的回答时遇到困难,你并不孤单。许多用户在提示制定中面临不一致、模糊的回应或过多的试验和错误。那么,是否有一种方法…

信息安全项目管理工具:等保2.0要求的3类检测系统

随着信息技术的飞速发展,信息安全问题日益凸显。等保 2.0 作为我国网络安全领域的重要标准,对信息安全提出了更高的要求。在等保 2.0 的要求下,信息安全项目管理工具中的 3 类检测系统发挥着至关重要的作用。本文将详细介绍这 3 类检测系统,帮助读者更好地了解信息安全领域…

[c++算法] 树的直径,包教包会!

哈喽大家好,我是 doooge。今天我们要将数论中的一个算法-树的直径。 $$\Huge 树的直径 详解$$ 1.树的直径是什么 这是一棵图论中的树:这棵树的直径就是这棵树中最长的一条简单路径。 2.树的直径怎么求 2.1暴力算法 直接对每个点进行 DFS,找到每个点离最远的点的距离,最后求…

图吧工具箱PC电脑工具(图拉丁吧硬件检测工具箱) v2025.01 中文绿色便携版

点击上方蓝字关注我 前言 图吧工具箱(大家通常叫它图拉丁吧硬件检测工具箱)是一个完全免费、开源、没有广告的硬件检测工具集合。这个工具箱是专门为喜欢自己动手组装电脑(DIY)的朋友们,特别是图钉社区的成员们制作的。里面包含了好多常用的硬件测试和检测小工具,特别适合…

在Windows上安装UOS打印机

因自己放在办公室发挥余热的Windows电脑即将寿终正寝,所以这两天试着将包括文件打印在内的基础网络服务逐渐转移到UOS主机上。 参照官方教程一通操作,Windows始终在添加打印机页面找不到同个局域网下的UOS主机,点击疑难解答则提示“该设备或资源未设置为接受端口“文件和打印…

是不是长大之后便很难再专注了?

写在前面 1100 字 | 专注 | 思考 | 逆向思维 正文“上课要专心。”我们似乎总能听见大人们这样要求我们。不过坦白地说,我真正体验过全神贯注的时刻,就那么一两次。看起来这篇文章,似乎又要大吐苦水,谈论生活怎样艰辛困苦,各种科技产品怎样将人碎片化之类。并不是。 恰恰相…

2025牛客寒假算法基础集训营3补题笔记

比赛链接 题目难度顺序大致为:\(A、M、F、L、C、\) \(easy\):\(A、M、F、L、C\) 太难了这场。。。E题卡了3个多小时。。。 A.智乃的博弈游戏 题意 有\(n\) 个石头,两人轮流取石头。每次能取小于石头个数且与石头个数互质的数量,当某人取时只有一颗石头则获胜。问先手是否可…