1.Phasing的概念
Phasing,或者说Genotype Phasing,它的中文名有很多:基因定相、基因分型、单倍体分型、单倍体构建等在不同的语境下都有人说过。但不管如何,所谓Phasing就是要把一个二倍体(甚至是多倍体)基因组上的等位基因(或者杂合位点),按照其亲本正确地定位到父亲或者母亲的染色体上,最终使得所有来自同一个亲本的等位基因都能够排列在同一条染色体里面(也就是所谓的一个单倍型)。
现在流行的NGS测序技术,都是把序列打乱混在一起测序的,测完之后,我们是无法直接区分这些序列中哪一个是父源,哪一个是母源的。我们通常都只是检测出基因组上有哪些变异,以及这些变异的碱基组成(纯合、杂合),也就是平时所说的基因型(Genotype)。只有经过Phasing,才能够实现这个区分。
2.Phasing的用途
一方面, Phasing与遗传变异的功能诠释密切相关;另一方面,需了解基因突变的相位后才能更好地判断基因突变是否会产生某种表型。
比如在一个基因上发生多个Loss of function variants(LOF),通常当这些变异出自于不同的单倍型时(这称为trans-configuration),即两个拷贝的姐妹基因都发生了变异, 才会导致基因表达计量(Gene expression dosage)的错误且产生危害。
而当它们出于同一个单倍型时(这称为cis-configuration),因为还有一个正常拷贝的基因(作为备胎), 基因表达很可能不会发生改变也不会产生危害。
另一方面, Phasing在遗传学研究中也有诸多应用,具体如下:
- 第一、人群Phasing后形成的单倍型参考序列集(Reference panel)是基因型推断(Imputation)必须的数据材料。而基因型推断(Imputation)是基因型-表型关联分析研究中必不可少的环节。高质量的Reference Panel能提升关联分析的统计功效;
- 第二、除了Reference Panel的制造需要使用Phasing技术之外,对被研究的对象进行预先Phasing(Pre-phasing)也可以极大地提高基因型推断(Imputation)的准确性;
- 第三、使用多个位点组成的Haplotype,而不是简单的单位点基因型, 可实现群体遗传历史的推断;
- 第四、可通过Phased后的家系人群单倍型序列,估算染色体重组率、重组热点等重要遗传参数;
- 第五、Phasing可用于探测频发突变、选择信号以及基因表达的顺势调控。
3.Phasing的方法有哪些
Phasing的方法总结起来主要有三个:
3.1家系分型(Related individuals Phasing)
就是测除了被研究的这个个体之外,同时对其父亲和母亲的基因组进行测序,获得三口之家的基因组数据。但是,如果父母都是杂合的基因型(AB),后代也是杂合的基因型AB时,此时就不能准确定相了。
3.2群体LD分型(LD Phasing)
它是利用群体中大量无血缘关系的个体,依据基本的连锁不平衡(Linkage disequilibrium,LD)遗传原理和相关数学模型,推断群体中每个个体的单倍体的方法,因此它也是计算量最大的一个。
LD Phasing方法的缺点是什么?由于这个方法需要依据群体的信息,那么它所能够Phasing的精度就会受到群体的制约。通常来说它只能针对群体中常见的变异(如频率在5%以上的变异),但对于罕见突变和个体特有的变异就不行了。
虽然随着人群基数的增大,它所能够Phasing的变异范围也会随着不断增加,比如从只能Phasing 5%以上频率的变异,增大到能够Phasing 1%以上频率的变异,但说到底它还是难以实现对一个个体单倍体的完全定相。
3.3物理分型(Physical Phasing)
在第二代或者三代测序中,一条read、一对reads或者一个clone上的每一个碱基都必定来自同一个染色体(也就是同一个单倍体)。
对于每一个这样的测序片段而言,它本身就是某一个单倍体的一个“局部”,因此现在的问题就变成了要如何把这些一个一个的小”局部“连成一个整体,接出完整的单倍体,从而实现定相,这就是Physical Phasing。
而且如果测序序列足够长(比如三代测序数据),深度足够深,那么它就能够实现个体的完全定相,而且有必要的话还可以同时把这两个单倍体的完整DNA序列组装出来,形成姐妹染色单体,这两个优点是另外两个方法难以比拟的。
4. 使用的软件
4.1Beagle
4.2Shapeit
4.3 Eeagle2 Eeagle2的安装和使用
具体参考博文 phasing