近期,Rajeev K. Varshney团队在Nature genetics发表综述文章:Unlocking plant genetics with telomere-to-telomere genome assemblies。
摘要
连续基因组序列组装将帮助我们实现作物转化基因组学的全面潜力。最近在测序技术方面的进步,尤其是长读长测序策略,使得构建无间隙的端粒到端粒(T2T)组装成为可能,从而为基因组组织和功能提供了新的见解。植物基因组面临着独特的挑战,例如从古老到最近的多倍体连续体以及大量高度相似且长的重复元素。由于测序方法的进步,对于大多数作物植物,染色体尺度的参考基因组组装是可用的,但T2T组装构建仍然具有挑战性。在这里,我们描述了在植物中,包括各种作物物种,进行单倍型解析、无间隙T2T组装构建的方法。我们概述了T2T组装在阐明重复元素在基因调控中的作用以及在泛基因组学、功能基因组学、基因组辅助育种和目标基因组操作中的影响。结合序列富集的种质资源库,T2T组装因此对基础和应用植物科学具有巨大的前景。
简介
对不同植物品种中序列变异的不断深入的表征将是作物育种的一大优势,一个完整且准确的基因组图像——包括所有编码(基因和/或数量性状位点(QTL))和非编码组分——将帮助我们回答植物生物学中的基本问题。基因组序列是未来作物育种的重要资源,因此对保障粮食安全和使作物适应气候变化做出了巨大贡献。然而,到目前为止,不完整甚至有时是错误的基因组组装阻碍了下游分析任务以及实验的设计和解释。长读长测序技术,如PacBio和ONT提供的,已经改变了我们组装基因组序列的方式。正如最近发布的高质量参考级拟南芥和人类基因组所证明的,读取变得更长更准确,解决了困扰最初草图组装的许多问题:序列连续体现在更好地锚定在染色体位置上,间隙更少。然而,尽管最近有所改进,即使是重要作物的参考基因组序列通常也有数百个间隙。
端粒到端粒(T2T)组装指的是从一端端粒到另一端端粒的整个染色体的无间隙序列,以及一个物种的所有染色体。直到最近,这还是不可能的,但现在已经报告了人类基因组的第一个完整T2T组装,其中包括通过使用互补技术识别的以前未绘制的区域。在植物方面,已经发布了重要作物如水稻和玉米的T2T组装。这些组装揭示了中心粒功能和进化,包括大的中心粒串联重复阵列、核糖体DNA位点和端粒。
将T2T方法扩展到广泛的种质集将有助于弥合基因组数据和表型结果之间的差距。尽管SNP分析现在非常强大且信息丰富,但许多功能变异涉及与存在或缺失片段、位置和/或拷贝数有关的差异,这些通常发现在高散布重复DNA的区域,这些区域要么未组装要么组装不正确。对育种池和种质收集中的基因组变异的增强理解将增强更有效的作物育种策略。完整的基因组组装通过提供高质量的基因组数据,为识别以前发布的组装中缺失的致病基因,为作物的基因组辅助育种工作提供了巨大的推动。提高表征不足的植物基因组——特别是那些具有多倍体和/或其他复杂基因组——的序列连续性和质量,将扩大基因编辑平台的范围,包括CRISPR-Cas9,用于作物研究。解决产量、抗病性和气候适应等重要性状的遗传复杂性,将使将理想的遗传变化整合到作物品种中成为可能。在这里,T2T组装的单倍型解析特性为研究人员提供了独特的机会,以分析和实施作物改良的全基因组单倍型块。
在这篇综述中,我们讨论了复杂作物基因组的挑战,如重复、多倍体和杂合性,并强调了促进T2T组装构建的技术进步。我们提供了各种植物物种中T2T组装的现状,并讨论了它们在泛基因组学、功能基因发现、QTL克隆和育种策略中的多种应用。我们最后强调了T2T组装如何帮助我们应对基因组辅助育种中的未来挑战。
植物基因组组装的挑战
基因组中功能区域的重复序列
重复序列是植物基因组中的一个显著特征,通常包括关键的遗传和功能区域。这些长度可变的序列可以在基因组中多次出现,主要包括转座元件和串联重复阵列。
组装大型同质串联重复阵列,包括端粒、亚端粒、核糖体组织区(NOR)和部分中心粒动粒体,是一项挑战。它们的复杂性从简单的单核苷酸和二核苷酸重复到跨越数百万碱基的广泛阵列,如在maizeknobs中所见。在大多数基因组组装中,这些大型同质串联阵列是完全缺失的。这在短读长组装中是难以避免的,但即使使用最新的长读长序列,这些区域也很难准确组装,特别是当阵列长度超过读取长度时。这些重复的长度和拷贝数的高度变异性通常导致测序读取几乎相同,导致组装过程中的复杂性。
中心粒是包含卫星DNA和逆转录转座子的染色体区域,确保姐妹染色单体的凝聚和它们在细胞分裂期间的规律分离。大多数现有的植物基因组组装缺乏和/或错误表示中心粒及其附近的重复DNA序列,限制了我们对它们的组织、进化和功能,包括染色体分离的了解。端粒是所有真核生物染色体两端的保护帽,有助于防止DNA复制过程中遗传信息的丢失,并在维持基因组完整性方面发挥作用。
在植物中,端粒通常由一个短重复序列(通常为TTTAGGG)组成,重复数百次(跨越2-75千碱基(kb)),是端粒酶(RNA依赖的DNA聚合酶)的产物20。相比之下,常作为NOR的核糖体DNA重复序列的簇,包含数百到数千个串联副本,每个区域约9 kb,编码对核糖体组装和功能至关重要的较大核糖体RNA(27S和18S)。
正确和完整地组装这些通常高度同质和功能区域的串联重复是重要的,因为它们不仅是结构基因组进化的关键位点,而且还可以促进重组事件的调控,以及是基因组大小扩展或收缩的位点。散布的重复可以作为植物进化的驱动力,因为它们可以影响控制植物适应和多样化的基因的调控。移动的重复区域(例如,转座元件)可以在插入时破坏或修改附近的基因调节器,因此在新发育过程的进化、对环境变化的应激反应和其他适应中发挥关键作用。例如,在玉米中,转座元件的末端反向重复被发现参与调控耐旱性和其他与产量相关的性状。
多倍体
多倍体基因组由于其复杂性和大小比二倍体基因组增加,给组装过程带来了挑战。多倍体基因组包含多个密切相关的亚基因组,因此区分同源异位基因位点是困难的。同源异位基因之间的高序列相似性可能导致错位和错误组装,导致基因组的表示不完整或不正确,特别是在自交多倍体的情况下。此外,重复元素的存在通常被放大,特别是在多倍体基因组中,这进一步复杂化了组装过程。为了应对这些挑战,通常采用分层方法,首先对多倍体作物的二倍体祖先进行测序,为随后的多倍体基因组组装奠定基础。这些二倍体基因组被用来指导映射和区分多倍体基因组内的同源异位序列,实现更准确和全面的组装。例如,对于异源四倍体花生(Arachis hypogaea),首先解码了二倍体祖先(Arachis duranensis 和 Arachis ipaensis)的基因组,三年后报告了四倍体花生的基因组。然而,在某些情况下,没有已知的二倍体祖先,例如异源四倍体谷物埃拉格罗斯蒂斯(埃塞俄比亚画眉草)。
杂合性
杂合性是植物T2T组装的主要挑战,特别是在自交多倍体和非近交物种中。杂合性主要通过遗传漂变、基因流动和不同环境中自然选择的不同方向等过程在种群中得以维持。无论其背后的机制如何,杂合性引入的遗传变异仍然难以通过传统的短读长测序技术解决。此外,高度杂合的植物基因组通常在同一个位点上携带不同等位基因的基因,这可能使得在正确单倍型组装中区分等位基因变得困难,导致组装错位。
获得端粒到端粒(T2T)组装的策略
由于这些挑战,从染色体一端到另一端获得完整且不间断的序列仍然是一项艰巨的任务。下面,我们讨论可以用来克服这些挑战的策略(见图1)。
图1 开发端粒到端粒(T2T)基因组组装的不同策略概述。
DNA提取
良好的DNA提取协议对于组装植物基因组至关重要。然而,由于植物和真菌坚固的细胞壁以及高水平的多糖、多酚和其他次级代谢产物,提取高质量DNA尤其具有挑战性。获得无污染(如多糖或酚类)的高分子量DNA对于长读长测序至关重要。标准的DNA提取协议,如使用十六烷基三甲基氯化铵,通常可以经过特定于物种的修改后使用。例如,在多年生黑麦草(Lolium perenne L.)中,简单的调整,如减少文库制备过程中的机械冲击、更长的洗脱时间、冲洗流动池和重新加载第二份文库,已经使DNA完整性得以保持,并为植物样本带来了前所未有的读取长度。
长读长测序
在过去的几十年中,随着长读长测序技术的出现,植物基因组学经历了一个范式转变,这些技术通过产生>5 kb的读取(通常为15-300 kb),在组装高质量基因组方面发挥了重要作用,从而提高了基因组组装的便利性、彻底性和准确性。2019年,PacBio高保真(HiFi)读取(约20 kb长)的引入是一个变革性的发展,它使用循环一致性测序模式,具有>99%的碱基级准确性。从那时起,PacBio仪器的吞吐量增加了大约8到10倍。另一个主要的长读长提供商是ONT,其产品量化核酸通过蛋白纳米孔时的电导变化43,并将它们转化为核苷酸读出。尽管ONT仪器可以产生极长的读取,但它们一直受到高错误率(约10%)和解决同聚物的挑战的困扰。然而,随着新的流动池(R10.4)、改进的化学试剂(V14)和更高准确性模式的应用,ONT已经实现了平均100 kb的读取长度,准确度约为99%。
PacBio和ONT技术目前正在被用来开发不同作物物种的高质量基因组组装。除了开发基因组组装外,这些技术还使全基因组DNA甲基化模式的分析成为可能。DNA甲基化通常涉及将甲基团添加到胞嘧啶的C5位置,形成5-甲基胞嘧啶,这在调节生命之树中的各种生物过程中起着至关重要的作用。这些DNA碱基的修饰在PacBio测序中改变了聚合酶动力学,并影响了ONT测序中修饰碱基附近的电流,允许从测序读取中直接检测这些变化,无需额外的实验室程序。鉴于其影响,长读长测序在2022年被命名为“年度方法”。
染色体尺度的支架构建
随着长读长测序技术的发展,采用长距离支架技术,如高通量染色体构象捕获(Hi-C)和光学绘图,正在变得越来越重要。这两种技术都用于通过发现新的连接点和纠正错误的连接来提高基因组组装的连续性。Hi-C通过交联和破碎染色质,然后将片段连接在一起并进行测序。通过分析不同片段之间的相互作用模式,可以推断出不同基因组区域在三维(3D)空间中的相对位置。Hi-C数据已经被用来在几个物种中开发染色体长度的支架,包括大麦(Hordeum vulgare)、鹰嘴豆(Cicer arietinum)、鸽豆(Cajanus cajan)和大豆(Glycine max)。另一种广泛使用的支架技术是光学绘图:一种非测序方法,它使用纳米通道和荧光标记的DNA分子来生成高分辨率、高通量的DNA结构图。光学绘图可以通过成像通过纳米通道的单个DNA分子,以高达10 kb的分辨率创建整个基因组的图谱。支架技术的数量不断增加进一步证明了它们在解决染色体结构复杂性方面的潜力,与长读长测序相辅相成。
组装算法
组装算法用于将DNA序列组装成一个连续的基因组表示。用于基因组组装的常用工具大多基于重叠图(Hifiasm、HiCanu、ALGA、SAVAGE、Readjoiner、SGA和fermi)和de Bruijn图(SPAdes、Verkko、LJA、EULER、ALLPATHS-LG、Velvet和SOAPdenovo2。重叠图方法依赖于识别重叠的读取以构建图,其中路径表示染色体的一部分。基于重叠图的方法在计算上可能要求很高,因为需要进行大量的配对比较,需要大量的计算资源。相比之下,de Bruijn图方法将读取片段化为k-mers,并构建一个图,其中每个k-mer代表一个节点,边缘连接重叠的节点。然后遍历该图以生成连续序列,并将它们合并成支架。de Bruijn图方法非常高效,可以处理大型和复杂的基因组,但它对测序错误敏感,并且不保留原始读取信息,这在解决歧义时可能有用。更长、更高质量的读取的可用性提高了组装过程的效率(特别是基于重叠图的方法),并为几个植物物种实现了近乎完整的组装,包括拟南芥、水稻、香蕉(Musa acuminata)、西瓜(Citrullus lanatus)、草莓(Fragaria vesca)和猕猴桃(Actinidia latifolia和Actinidia chinensis)。
单倍型分相
单倍型分相是指将杂合或自交多倍体基因组中的同源序列根据它们的亲本来源分开的过程,或者换句话说,是将位于同一物理染色体上的序列组合在一起。单倍型分相在多倍体和高度杂合作物中特别重要,包括那些通过克隆繁殖和树木作物,其中单个位点上的多个等位基因的存在可能会使基因组组装和下游分析复杂化。组装算法的进步已经简化了对广泛杂合的二倍体和多倍体基因组进行单倍型解析组装的创建。
目前,常用于植物基因组分相的去新组装方法涉及使用诸如Hifiasm和Canu等等位基因感知算法进行初步组装和分相,然后进行Hi-C支架构建,以生成染色体级单倍型组装。例如,使用这种方法,开发了克隆繁殖作物茶树(Camellia sinensis)的单倍型解析组装,以研究其驯化历史。
此外,已经出现了基于三重排序的算法,如TrioCanu和Hifiasm+trio,这些算法使用三重测序数据对二倍体基因组进行分相。三重测序数据是从三个相关个体(通常是亲本-子代三重)获得的基因组数据。这些算法使用独特的亲本k-mers将F1杂交的长测序读取分割为父本和母本集;然后将这些集分别组装成代表亲本基因组的单倍体基因组。然而,这种方法的一个主要缺点是必须有现成的亲本数据,对于基因库中的自然存取可能并非如此。
实验验证
实验验证可以为组装序列的正确性和完整性提供支持证据。荧光原位杂交(FISH)和随后进行高通量测序的染色质免疫沉淀(ChIP–seq)是常用于验证复杂基因组结构和重复区域的技术。FISH可以通过用荧光染料标记特定DNA序列来识别完整染色体中的基因组区域。FISH特别有价值,用于识别NORs(核糖体RNA基因组织区),因为它们由串联重复的核糖体RNA基因组成,组装起来具有挑战性,而核糖体RNA基因特异性FISH探针可以确认NORs的位置和排列。FISH还可以用来验证基因组组装中染色体末端(有时是内部)端粒序列的存在和正确定位。此外,ChIP–seq是一种广泛使用的体内方法,用于识别特定蛋白结合的DNA区域。使用针对中心粒组蛋白H3(CENH3)的抗体进行ChIP–seq——一种中心粒特异性组蛋白——可以拉下中心粒区域,然后用于确认基因组组装中中心粒的位置。FISH和ChIP–seq都已被用于识别植物中的中心粒区域,这些区域在序列组成上容易发生快速种内变异,允许研究包括拟南芥、水稻、玉米、小麦(Triticum aestivum)、棉花(Gossypium hirsutum)和大豆在内的广泛物种中中心粒的功能和稳定性背后的进化、组织、分布和机制,如Naish和Henderson所综述。将实验数据与计算组装方法相结合在实现高质量基因组组装中非常有价值。例如,在大麦中,FISH定位叶绿体探针对于排除核基因组中意外包含的大片段(>100 kb)叶绿体DNA至关重要。
手动整理
手动整理是生成植物基因组组装的重要步骤。整理可以通过与基因组的现有知识进行比较来验证组装,例如某些基因的存在或缺失、与相关物种的同源性或某些重复序列的存在。此外,高密度遗传连锁图谱可以用来通过确认标记和基因的预期顺序和方向来验证组装的准确性。此外,细菌人工染色体克隆的序列可以用来提高基因组组装的准确性和完整性。尽管耗时且劳动密集,手动整理显著提高了组装的准确性和信心。一旦组装完成,有几种工具,如BUSCO、QUAST和GenomeQC,可以用来评估它们的质量和完整性。
准确的基因预测
一旦获得端粒到端粒基因组,下一步是识别功能元件,特别是蛋白质编码基因。基因预测可以大致分为从头预测、同源预测和基于证据的方法。从头预测和同源预测方法经常错过小内含子和新颖或高度分化的基因,而基于证据的方法则利用转录组数据支持基因预测,识别新颖或低丰度基因,并完善预测基因的结构和边界,包括添加非翻译区。传统上,短读长RNA测序数据被用于转录组描述。然而,现在长读长RNA测序的可用性提供了完整的、准确的读取,覆盖全长转录本,允许识别新颖的亚型、选择性剪接事件和复杂的基因结构。为了自信地注释基因,需要一个结合所有三种方法与手动整理的混合基因预测流程。
植物的端粒到端粒(T2T)组装
如上所述,组装T2T基因组具有挑战性,但正确的测序和组装策略组合已经在一些案例中取得了成功(见表1)。结合高通量测序技术和不同的组装算法,随后进行手动整理,已经用于开发几种植物的近乎完整的T2T组装,例如水稻、玉米、香蕉和西瓜(见表1)。尽管模式植物拟南芥的基因组序列在2000年已经报告,但直到2021年,当解决了所有五个中心粒的拟南芥品系哥伦比亚(Col-0;Col-CEN)的基因组序列报告时,中心粒、端粒和核糖体DNA重复序列才被组装。这个组装是使用ONT测序生成的,并用PacBio HiFi和Bionano光学绘图数据进行了打磨。Col-CEN基因组序列为拟南芥中心粒的结构和演化提供了深入的理解。在另一项使用类似方法的研究中,通过整合ONT-UL(ONT-超长)、PacBio HiFi和Hi-C数据,开发了一个高质量、近乎完整的Col-0基因组序列(Col-XJTU)。在这里,五个染色体中的3号和5号染色体完全解析,包括T2T组装,而4号染色体除了包含长重复DNA片段的NOR外,完全解析。
表1 一些植物中完整、近乎无间隙组装的状态
在最初的努力之一中,两个优质的O. sativa 籼/粳稻品种,镇稻97和明恢63的无间隙参考基因组被组装。这些基因组提供了水稻中心粒结构和功能的全球视图,表明所有水稻中心粒区域都包含具有可变拷贝数和结构的中心粒特异性卫星基序。最近的一项研究通过使用优化的DNA提取协议、ONT-UL和光学绘图数据,以及高效的组装策略,实现了香蕉(DH-Pahang)的染色体长度组装70。在总共11个染色体中,有5个通过T2T组装构建完全重建为单个连续序列。所有端粒和中心粒都被显著注释,最终组装仅包含15个间隙,主要位于大型、高度重复的区域。利用ONT-UL读取使得包括萜烯合酶和抗病基因等重要基因家族在内的多个串联重复基因簇的组装成为可能。随后,使用PacBio HiFi和ONT-UL读取组装了一个优质西瓜自交系G42的T2T参考基因组。
西瓜基因组的所有11个染色体都被组装成无间隙的单个连续序列,所有22个端粒和11个中心粒都得到了表征。利用这个高度连续的基因组组装,从之前组装中未包含的220个间隙中鉴定出了173个新基因。
此外,已报告了苦瓜(Momordica charantia L. var. abbreviata Ser.)基因组组装,大小为295.6Mb。通过使用PacBio和Hi-C,基因组序列被组装成11条染色体,其中6条无间隙。此外,通过结合ONT和Hi-C数据以及多种封闭间隙策略,报告了一个无间隙基因组(DM8.1)的双倍单倍体马铃薯(Solanum tuberosum)DM1-3 516 R44。在这里,端粒和中心粒分别使用端粒重复序列和使用CENH3抗体的ChIP–seq进行了鉴定。马铃薯的完整基因组序列和注释有助于鉴定具有农业重要性的大串联基因簇(如patatin、萜烯合酶和cupin)。在另一项努力中,使用深度覆盖的ONT-UL和PacBio HiFi数据报告了玉米自交系Mo17(2,178.6 Mb基因组)的T2T基因组。这一努力的主要成就是组装了整个NOR,包含约3,000个45S核糖体DNA拷贝,以及几个极长(约1 Mb)的微卫星块。T2T组装允许研究重复区域的复杂性,并表明,除了研究充分的逆转录转座外,非转座元素重复的扩增也可以促进植物基因组的扩展。
端粒到端粒(T2T)基因组组装的应用
完整的基因组的可用性不仅可以进一步研究作物遗传学和育种,还可以帮助提高农业的生产增长。我们下面强调了一些T2T组装可能引发农业创新的应用(见图2)。
图2 端粒到端粒(T2T)基因组组装在作物改良中的应用。
绘制非编码RNA、蛋白质和DNA或蛋白质修饰
非编码RNA基因是一个极其重要的课题,许多近期研究表明它们与重要性状有关。一个完整的T2T组装将允许更完整和更准确地识别非编码RNA基因及其靶标。基因和基因组功能是由核内蛋白质、DNA和RNA之间的相互作用决定的,因此仅2D描述DNA序列(无论多么优秀)不足以描述核基因组的结构或功能。有了T2T组装,可以更有效和全面地使用诸如甲基化分析(针对DNA)、ChIP–seq(针对蛋白质)、DNAse高敏感性筛选(针对开放或活跃区域)和交联(针对3D结构)等技术93。这些研究表征了通常高度动态的状态,这些状态区分了活跃的常染色质和大部分不活跃的异染色质,实际上并不是二元差异,而是由尚未充分理解的不同染色质潜力组成的广泛范围。
对中心粒的见解
中心粒在生物功能中的作用,如细胞分裂期间染色体的传递,已经被充分记录,它们对附近减数分裂重组的影响对作物改良至关重要。例如,通过比较基于长读长测序数据的两个基因组组装,棉种Gossypium thurberi和Gossypium davidsonii的中心粒区域的高度差异性显而易见。基于中心粒区域丰富的类吉普赛长末端重复序列,作者推测逆转录转座子是棉花中心粒形成的原因。基于种内和种间比较,非同源染色体的中心粒序列之间的高度相似性导致了棉花中心粒在物种形成后经历了复制的结论。此外,对水稻中心粒的不等重组分析表明,重组在中心粒的核心(即动粒)并不是被抑制的,正如以前所相信并在遗传学教科书中所述,而是抑制了重组事件交叉结果的频率。
此外,以中心粒介导的染色体工程已成为一个有前景的领域。这种方法涉及人工修改或创建中心粒,可能允许开发新的染色体配置并稳定人工构建的染色体96。中心粒操作的一个特别创新的应用是产生单倍体植物。通过工程化CENH3,可以在早期胚胎发育期间诱导目标基因组的消除,从而产生单倍体植物,这可以加速产生具有同质性的纯系。转录CENH3的基因突变导致小或有缺陷的中心粒。在涉及cenH3突变体(单倍体诱导剂)和野生型的杂交中遇到的中心粒二态性,通过自然清除机制选择性地消除了传递小或有缺陷中心粒的植物的染色体。对于这些革命性的生物技术应用,T2T基因组组装是一个关键的起点。
利用泛基因组学确定遗传多样性
染色体尺度的参考基因组组装的日益可用性促进了遗传多样性的特征分析,以加速功能基因组学和作物育种。然而,单一的参考基因组仅捕获了存在于不同存取号中巨大遗传多样性的有限部分,包括野生物种。在这种情况下,泛基因组——包含多个基因组组装中所有新等位基因——越来越被认为是指导不同植物物种遗传变异分析的新参考,同时也解决了使用单一基因组所关联的参考偏差问题。许多植物物种的泛基因组构建正在进行中,而目前可用的T2T组装的完整性是筛选所有相关组装中保守和独特基因组片段的极好起点。一般来说,当前的泛基因组在代表其野生物种的基因库方面表现不佳。例如,在番茄(Solanum lycopersicum)中使用九个野生物种和两个栽培品系的染色体尺度组装构建的属级泛基因组,有助于克服基于栽培品系和近缘野生祖先的传统泛基因组的有限多样性。除了识别可以提高栽培番茄产量潜力的野生番茄基因Sgal12g015720外,番茄泛基因组指导了引种计划,将野生片段整合到栽培的优质背景下。
解决复杂植物性状的遗传基础
许多与农业相关的性状在遗传上是复杂的,并受环境的强烈影响,理解它们的遗传结构对于将它们适应于现代农业环境至关重要。先进的基因组技术已经通过在人工制图群体和多样化种质资源库中实现大规模的遗传变异发现和基因分型,增强了作物性状分析。无间隙基因组组装的可用性将支持下一代方法不断发展的景观,用于映射复杂植物性状(例如,将大规模并行测序与选择性DNA池化或批量分离分析整合)旨在高分辨率遗传解剖和功能基因发现。将序列读取映射到无间隙参考基因组,改进了全基因组遗传变异的识别,以进行下游分析。在这种情况下,已经证明了在解决一个重要性状——挥发性香叶醇——的遗传控制方面,染色体尺度的单倍型相位蓝莓基因组的效用。使用新的无间隙Draper基因组组装进行全基因组关联研究,表明这一性状由两个基因组区域控制(即,它是少基因的),从而纠正了由涉及相对零碎的W8520基因组组装的分析支持的多基因控制假设。
T2T组装提供的完整基因组信息不仅增强了基因组注释,而且支撑了候选基因挖掘工作。例如,国际小麦基因组测序联合会RefSeq版本1.0结合重测序数据,有助于解决赋予小麦对生物(昆虫)和非生物(干旱)胁迫耐受性的茎实心性(SSt1)QTL。相应候选基因TraesCS3B01G608800的拷贝数变异的潜在诊断SNP标记,可能支持小麦中性状的改进。同样,小麦的野生二倍体近缘种Aegilops sharonensis的参考级基因组促进了鉴定了茎锈病抗性基因Sr62,这允许其分子克隆,并用于增强小麦的抗病性。
基因编辑系统用于快速性状改进
工程核酸酶作为分子剪刀的能力,彻底改变了创造新突变的遗传方法,用于基础和应用研究。锌指核酸酶、转录激活因子效应物核酸酶和CRISPR–Cas相关核酸酶构成了用于植物中目标基因组操作和基因功能研究的主要可编程核酸酶类型。最近,CRISPR–Cas9因其在引入期望基因组序列中精确变化方面的便捷性和效率,已成为首选的基因编辑工具。无间隙组装提供的关于基因组靶标的完整信息可能会进一步推动CRISPR–Cas9应用,通过促进设计最佳导向RNA,同时最小化意外目标的风险。这对于扩大多倍体作物的狭窄遗传基础尤其重要,这些作物拥有庞大且复杂的基因组;由于缺乏同时在多个等位基因中引入突变以产生期望表型的所需基因组信息,这些作物在很大程度上难以进行目标基因组修改。例如,基于小麦中开花位点C(FLC)同源序列的精细注释确定的四个高置信基因之一TaAGL33,通过基因编辑被靶向。由此产生的导向RNA的设计允许CRISPR–Cas9介导的编辑在小麦基因组中所有三个TaAGL33同源基因(即,TraesCS3A01G435000(A)、TraesCS3B01G470000(B)和TraesCS3D01G428000(D))。编辑过的植物比对照组(即,野生型)提前两到三天开花。同样,栽培苜蓿(Medicago sativa L.)的染色体级组装有助于解决在这种自交四倍体作物中诱导突变的固有瓶颈。CRISPR–Cas9介导的MsPDS和MsPALM1的耗竭以及由此产生的空等位基因稳定传递给下一代,有助于阐明对栽培苜蓿产量和营养价值重要方面的遗传控制,确认PDS和PALM1在类胡萝卜素生物合成和叶片形态建成中的重要角色。因此,利用完整单倍型相位组装的等位基因特异性基因编辑系统,有望提供所需的突变,因此在提高作物性能方面至关重要。
在作物育种项目中快速追踪单倍型整合
植物育种家传统上利用重组和选择来不断改变作物品种的遗传构成。基因组辅助育种在加速选择决策方面证明极为有用,通过追踪育种项目中QTLs的整合,特别适用于选择对表型有强烈影响的QTLs,追踪本质上隐性的等位基因,以及预测在植物发育后期表达的性状。当前的基因分型平台,如固定的SNP阵列,无法捕获潜在候选基因的所有单倍型,这从小麦中染色体尺度组装的分析中可以看出。此外,经过长时间在不同地点测试的精英育种线、品种及其谱系的单倍型解析组装,将揭示与历史育种决策相关的单倍型,从而提供改善的育种目标。展望未来,可以通过分析多样化存取号的高质量组装,包括地方品种和野生亲缘,获得新的单倍型,以改善现代作物的性状(表1)。因此,结合全基因组测序数据和多点田间试验测量的日益丰富的数据,可以提供一套可以指导未来作物育种策略的优越单倍型,特别是在协助亲本选择以产生具有所需性状的先进育种线或品种方面。
为了促进育种应用,可以从潜在遗传变异中确定的单倍型定义标记的子集转换为成本效益高且快速的基因分型检测,如由于在快速检测小至中等数量的遗传标记和样本方面的灵活性,竞争性等位基因特异性PCR。这种基于单倍型的标记检测可以用于育种项目中,不仅可以追踪目标单倍型的整合,还可以选择携带最佳组合的优越单倍型的可取重组体。
野生作物的驯化以保障粮食安全
尽管作物的驯化和发展已有大约12,000年的历史,但现代栽培品种的形成和人工选择仅限于少数植物物种。通过将当前的栽培作物种类扩展到在气候变化情景下具有生产力性状的作物,可以确保全球粮食安全。作物驯化性状的功能基因组学研究显示,这些性状由有限数量的基因或数量性状位点(QTLs)控制,它们对相关表型有很大的影响,实际上,一些潜在的基因已经被克隆,包括玉米中的Teosinte branched1 (tb1)、番茄中的Fruitweight2.2 (fw2.2)和fasciaded,以及水稻中的shattering4 (sh4)。
为了获得具有模型特征的植物,这些植物在推荐农业实践下达到最佳产量,育种工作迄今一直由所谓的理想型设计指导。候选形式(野生或未适应的)的高质量基因组组装(基于长读长或理想的端粒到端粒)以及关于基因内容和注释的可用信息,使得可以精确地识别野生近亲中作物驯化位点的同源基因。然后,这些基因可以被编辑,例如使用CRISPR–Cas,更容易地将野生植物转化为栽培作物的候选者,从而创造全新的驯化。例如,最近研究野生植物全新驯化的潜力,包括灯笼果(Physalis pruisnose)、番茄(Solanum pimpinellifolium),和Vigna stipulacea,使用最新的基因编辑或简单的诱变,在已知的驯化位点引入遗传变化。基因编辑的植物被发现具有紧凑的植物结构、早花和增大的果实大小,而诱变导致休眠减少。
此外,这种方法的概念验证已经通过快速驯化野生异源四倍体水稻Oryza alta (CCDD)展示,通过建立基于高效转化协议的全基因组序列组装和基因编辑的补充系统。野生水稻的全新驯化导致了快速产生改良的水稻植物,这些植物具有较低的落粒率、降低的高度、较短的芒长、增加的谷粒长度、更大的茎粗和减少的抽穗时间。
综合来看,野生形态的完整基因组组装为快速遗传操作特定位点提供了起点,因此可能有助于为理想的未来作物铺平道路,例如通过缺陷消除(如种子脱落、小粒/果实大小和低产量)同时保留野生物种的任何原始有益特征,如对害虫、疾病和非生物胁迫的抵抗力。
结论和未来方向
实现植物的端粒到端粒(T2T)组装需要遗传学家、生物信息学家、育种家和其他专家之间的协作努力。持续投资于测序技术、基因组注释和数据整合对于推进我们对植物基因组的理解以及改进作物育种工作至关重要。长读长测序技术为开发T2T组装提供了无与伦比的能力,但需要大量的高质量输入DNA,这可能很难获得,特别是在那些难以用常规DNA提取协议处理的物种,或者仅有限样本材料可用的情况下。因此,改进测序方法以使用最少量的DNA将是有益的。此外,获取高质量基因组组装和分析工具可能成本高昂,特别是对于较小的育种项目或非营利组织。这可能限制了对科学技术和突破的公平获取,使得跟上基因组学研究的快速步伐变得困难,尤其是在发展中国家。为此,通过开放获取数据库公开提供T2T组装以及基因组注释,将通过授权更广泛的科学家和植物育种家群体来加速研究和育种工作。尽管如此,T2T组装对未来育种工作的真正潜力将取决于我们能否将基因组序列信息与在多组学和表型水平观察到的变异相关联。我们还预期,T2T启用的染色体工程将开创作物理想型育种的转型阶段,为粮食安全和可持续农业带来深远的影响。