Nature Plants | 河北大学杜会龙教授团队揭示了燕麦早期驯化过程中与产量等性状相关的重要基因组进化事件

燕麦,作为全球第七大谷类作物,是公认的全价营养食品,深受消费者喜爱。此外,燕麦也是世界上最重要的优质饲草之一,以其易于种植、适口性强、产量高且家畜偏好等特点著称,同时拥有耐瘠薄、耐盐碱、抗旱及抗寒等卓越特性。这些优势使燕麦在保障食品安全和缓解畜牧业饲料短缺等问题方面扮演着至关重要的角色。然而,栽培燕麦的基因组十分复杂,其异源六倍体的基因组结构,加上约11Gb的庞大基因组以及高达约87%的重复序列含量,导致其基因组组装难度极大。尽管已有皮燕麦‘Sang’和裸燕麦‘三分三’两个栽培燕麦基因组公布,但相较于其他作物,燕麦在基因组学领域的研究仍显滞后,极大阻碍了燕麦分子设计育种等工作的有效推进。

同时,栽培作物在长期的人工驯化和遗传改良过程中丢失了大量遗传信息,尤其是抗性相关的优异等位基因。而野生种质往往蕴含着大量宝贵的遗传资源,被认为是现代栽培品种遗传改良与种质创新的关键源泉。不实野生燕麦(Avena sterilis L.),被认为是栽培燕麦的直接祖先种,具有强大的环境适应能力,常常在小麦、大麦和玉米等田间作物中作为杂草生长。但因其缺乏高质量的基因组,极大地阻碍了对栽培燕麦进化历程、驯化历史的深入研究以及优异等位基因资源的挖掘和利用等工作。


2024年12月03日,国际顶尖学术期刊Nature Plants在线发表了河北大学杜会龙教授团队的重要研究成果——“The near-complete genome assembly of hexaploid wild oat reveals its genome evolution and divergence with cultivated oats”。该研究成功解析了栽培燕麦祖先种不实野燕麦和栽培皮燕麦两个近乎完整的参考基因组。其中,野燕麦组装大小达10.99 Gb,全基因组仅剩14个gap,是国际上动植物领域首个报道的超过10 Gb的近乎完整的基因组。该研究系统地揭示了野生与栽培燕麦着丝粒序列全景结构及动态进化历程,鉴定到了大量与燕麦驯化相关的重要基因组进化事件和关键基因。其中,发现了一个在染色体4A至4D间发生的约28 Mb的大片段复制事件,该片段带有多个与重要农艺性状尤其是与产量相关的候选基因,并利用全球117份野生和栽培燕麦材料证明了其在燕麦早期驯化过程中的重要作用。同时,进一步利用群体遗传学分析挖掘到了大量与燕麦驯化相关的重要候选基因,为燕麦的功能基因组学及遗传改良提供了重要的基础。


1、野生与栽培燕麦近乎完整参考基因组的构建

研究团队综合运用PacBio HiFi、ONT、Illumina和Hi-C等先进测序技术,成功构建了不实野燕麦近乎完整的基因组图谱,其大小达10.99 Gb,contig N50长度为473.40 Mb,仅剩余14个gap,并涵盖所有端粒区域(图1)。同时,完成了21条染色体的A、C和D亚基因组分型工作。后续质量评估显示,该基因组组装具有高连续性、完整性和准确性。此外,团队还完成了栽培皮燕麦品种“Marvellous”的高质量基因组组装,组装总长度为10.89 Gb,contig N50为108.51 Mb。为深入开展野生与栽培燕麦的比较分析,研究团队采用统一的基因组注释流程,对不实野燕麦、皮燕麦“Marvellous”以及已发表的裸燕麦“三分三”进行基因结构、重复序列等注释,为深入理解燕麦基因组特征及进化历程提供了坚实的数据基础和依据。

图1 不实野燕麦基因组组装及序列特征


2、野生与栽培燕麦着丝粒的动态演化历史

研究团队进一步利用着丝粒特异结合蛋白CENH3的ChIP-seq数据,界定了栽培和野生燕麦基因组的着丝粒序列,揭示了着丝粒全景特征(图2)。研究结果表明,与其他禾本科作物类似,近期扩增的逆转录转座子CRM在燕麦着丝粒区域显著富集,但其在C和A/D亚基因组中的占比呈现明显差异。尤其值得注意的是,在燕麦C亚基因组着丝粒存在大量的卫星(Satellite)DNA的重复序列,主要是包括46 bp(Cen46)和55 bp(Cen55)两个重复单元,这两个重复单元在其祖先二倍体中就已存在,而在A和D亚基因组中则几乎不存在。这些结构表面,近期扩增的逆转录转座子以及卫星重复单元,共同驱动了六倍体燕麦着丝粒的多样性特征,并导致了C和A/D亚基因组着丝粒区域的分化。这一发现为理解燕麦着丝粒的进化机制提供了重要线索。

图2 燕麦基因组着丝粒区域特征


3、结构变异是促进野生与栽培燕麦适应性演化的重要驱动力

研究人员构建了野生燕麦与栽培燕麦基因组间结构变异的全景图,共计112,603~204,665个结构变异,具体包括56,544~141,745个插入、55,354~62,891个缺失、57~259个易位以及576~1265个倒位(图3并通过多种方法对随机选取的40个结构变异进行了验证,结果表明所鉴定的结构变异具有很高的可靠性。存在/缺失变异(PAVs)是基因组中最为丰富的变异类型,且倾向于在基因间区大量富集。其中,87.43%的PAVs与转座子重叠,这表明燕麦基因组中转座子的大量扩增是驱动结构变异产生的关键因素。深入分析还发现,这些PAVs在低表达水平基因中呈现出更高的出现频率,并且PAVs影响基因的主要富集到与重要农艺性状和环境适应性相关的功能类别。这些重要发现为深入理解燕麦驯化的分子机制提供了关键线索,也为燕麦的遗传改良提供了不可或缺的重要变异资源。

栽培和野生燕麦结构变异分析


4、栽培燕麦驯化早期的一个重要基因组进化事件

在结构变异分析过程中,研究人员在栽培燕麦基因组中发现了一个明显的大片段变异:4A染色体起始处存在一段约28Mb的缺失(图4)。然而,通过重测序数据分析揭示,栽培燕麦4A起始区(1-28Mb)并非真正丢失,而是由于其与4D起始区高度相似,致使在基因组组装过程中未能成功组装出4A起始区(1-28Mb)的完整序列。为进一步验证这一现象,研究团队运用了Hi-C热图、系统发育分析以及原位荧光杂交(FISH)等多种方法,结果表明栽培燕麦4A染色体起始的大片段(1-28Mb)发生了复制,并精准替换了4D染色体对应的区域。而在二倍体、四倍体以及野生六倍体燕麦中均未出现此重复情况。进一步利用全球野生与栽培燕麦群体进行分析,研究人员发现全球几乎所有栽培燕麦都拥有来自4A的两个相似片段,而野生燕麦则不存在这一特征,这一发现强有力地证明了该重复事件发生在燕麦驯化的早期阶段。

图4 染色体4A到染色体4D之间的大片段重复

进一步针对祖先种不实野燕麦基因组中的4A和4D起始区域展开深入分析,结果显示该区域涵盖了529个基因,其中121个与重要农艺性状紧密相关(图5)。后续研究进一步表明,4A区域基因的转录丰度显著高于4D区域,与此同时,4D区域呈现出更高的甲基化水平。推测在燕麦驯化过程中,4A重复区域内的有利等位基因极有可能受到了强烈的选择作用,进而有力地推动了燕麦的早期驯化进程。这一发现为深入探究燕麦驯化的分子机制提供了关键线索,同时也为后续燕麦的遗传改良研究提供了极为重要的理论依据和丰富的基因资源,具有重要的科学意义和潜在应用价值。

图5 染色体4A和4D起始区域基因表达、甲基化和功能分析


5、燕麦群体进化分析及驯化相关基因的鉴定

为探讨燕麦群体进化模式及驯化过程中的关键遗传改变,研究团队对全球范围内117份燕麦种质开展全基因组重测序分析(图6)。基于SNP的系统发育和主成分分析将这些材料分为三组,其中野生燕麦为一组(G1),栽培燕麦分为两组(G2主要是欧洲有壳燕麦、G3主要是中国裸燕麦)。通过计算π比值和Fst值,鉴定出888个与燕麦驯化和改良相关的受选择区域,这些区域包含1,267个与产量与品质、不育性、抽穗期、生物抗性、非生物耐受性以及养分利用效率等重要农艺性状相关的基因。推测这些基因在燕麦驯化进程中承受了不同程度的选择压力,暗示其在燕麦适应多样环境条件或满足人类需求方面具有关键意义。该研究不仅为深入理解燕麦驯化的分子机制提供了全新见解,还为未来燕麦育种工作提供了极具价值的基因资源。

栽培和野生燕麦的群体进化分析


综上所述,本研究通过对野生和栽培燕麦基因组的全面分析,揭示了燕麦驯化过程中的遗传变化规律,并挖掘到大量与燕麦驯化和改良相关的重要基因。这些发现为燕麦的进化生物学、功能基因组学和遗传育种研究提供了重要的理论基础和数据支持。同时,该研究也为其他多倍体植物的基因组研究提供了宝贵的参考和借鉴。

河北大学生命科学学院青年教师何强李伟、硕士研究生苗雨青和科研助理王渝为该论文共同第一作者,河北大学生命科学学院杜会龙教授为论文的通讯作者。中国科学院遗传与发育生物学研究所韩方普研究员、刘阳副研究员和刘倩博士对本研究中着丝粒的鉴定提供了重要帮助。河北大学巩志忠教授和中国农业科学院深圳基因组研究所汪鸿儒研究员对本研究给予了指导。该研究得到国家自然科学基金、中国科协青年人才托举工程和河北省自然科学基金等项目的资助。



招聘:河北大学燕麦基因组学与精准设计育种团队因科研工作需要急需基因组学、生物信息学、植物学、遗传学、计算机科学、作物学、基因编辑、遗传育种等方向的优秀博士/博后/教授,4-5人!

河北大学燕麦基因组学与精准设计育种团队主要围绕国家重大战略需求,针对我国优异草种资源匮乏和用于饲草产业发展的土地严重不足等问题,拟通过广泛收集全球范围内的野生和栽培燕麦种质资源,利用基因组学、群体遗传学、系统进化生物学和多组学等分析方法,探究燕麦群体内的遗传多样性以及演化历程,揭示燕麦基因组进化与表型可塑性的遗传学基础(生物信息学);进一步结合分子生物学等技术手段挖掘与燕麦产量、抗性等重要农艺性状相关的功能基因,解析燕麦非生物胁迫响应与生长发育平衡的调控网络和分子机制(分子生物学);并基于机器学习、基因组预测、基因编辑和杂交等技术实现燕麦的快速从头驯化和定向改造,从而选育高产、优质、耐逆的燕麦新品种(分子设计育种)。

文章链接:https://www.nature.com/articles/s41477-024-01866-x


下一篇:Nature Reviews Earth & Environment重要综述|北半球高纬度地区大气CO2浓度的季节循环振幅

书记信箱

院长信箱 jiangyon...

图书馆

教务系统

办公系统

诚聘英才