当前位置: 主页 > 神经科学 > 遗传与演化

泛基因组图及其在生物多样性基因组学中的应用

2026-04-29 23:17 未知 美通社   阅读 0
核心摘要: 完整的遗传变异数据集是生物多样性基因组学研究的关键 长读长测序技术使得常规组装高度连续 单倍型分辨率的参考基因组成为可能 然而 即使完整 来自单个个体的参考基因组也可能使下游分析产生偏差 并且无法充分 关键词:种群、遗传多样性

完整的遗传变异数据集是生物多样性基因组学研究的关键。长读长测序技术使得常规组装高度连续、单倍型分辨率的参考基因组成为可能。然而,即使完整,来自单个个体的参考基因组也可能使下游分析产生偏差,并且无法充分代表种群或物种内的遗传多样性。

2025年1月8日,洛克菲勒大学、米兰大学、米兰-比可卡大学等多家机构的研究人员在《自然-遗传学》上发表了一篇重要综述。该文系统回顾了用于构建、可视化和操作泛基因组图的可用工具和数据结构,提供了实际案例,并讨论了泛基因组图在整个生命树(从微生物到动植物)的生物多样性和保护基因组学中的应用。

核心内容:泛基因组图的概念与构建

该综述的核心价值在于,首次全面总结了泛基因组图这一新兴数据结构的原理、构建方法及其在生物多样性研究中的广泛适用性。

1. 从线性参考基因组到图结构

传统的线性参考基因组将序列表示为一维的字符串,而泛基因组图将来自多个个体的基因组序列并行为节点(共享序列片段)和边(节点之间的连接),形成一个有向图结构。在这个图中:

  • 共同的序列表示为单一的节点。

  • 个体间的差异(如单核苷酸变异、插入、缺失、结构变异、倒位)表示为从主干节点分叉出的替代路径(冒泡结构)

  • 重复区域或基因组重排可通过图中的循环或复杂分支进行建模。

这种结构克服了将单个参考基因组作为“金标准”所带来的参考偏倚——即将短读段强制比对到参考序列的独特位置,导致在参考中缺失的变异(尤其是结构变异和物种特异的序列)无法被准确检测或定量。

2. 泛基因组图的构建策略

根据研究目的和数据可用性,可采用不同的构建方法:

 
 
构建方法 描述 适用场景 代表工具
基于比对 将多个高质量基因组(组装)进行多序列比对,识别共线区域和变异,构建图结构。 物种内多个高连续性基因组可用;需要高精度变异图谱。 Minigraph-Cactus, Progressive Cactus
基于组装 将所有测序读段共同组装,直接生成包含所有个体变异的图结构(而非先组装个体基因组再合并)。 缺乏高质量参考或群体多样性极高;无需单独组装。 Minigraph, SPAdes (pangenome mode)
基于参考引导 以现有线性参考基因组为骨架,将其他的基因组序列以替代路径的形式添加进去。 已有良好参考基因组;重点整合结构变异和大的插入缺失。 Minigraph, vg (construct)

3. 泛基因组图的类型与层次

  • 种内泛基因组:整合一个物种内多个个体的基因组,捕捉种内的遗传多样性。例如,人类泛基因组项目整合了47个个体的高质量基因组,识别出大量此前参考基因组中缺失的序列和结构变异;家鸡泛基因组构建了涵盖30个品种的图,鉴定了影响体型、羽色和免疫的重要结构变异。

  • 超级泛基因组:整合一个属内多个物种的基因组,捕捉跨越物种边界的遗传多样性。这在作物野生近缘种中尤为重要:野生番茄超级泛基因组鉴定出与抗病、风味相关的、在驯化品种中丢失的基因;野生葡萄超级泛基因组则为抗病和抗逆育种提供了关键资源。

  • 开放 vs. 闭合泛基因组:对于细菌等具有高度水平基因转移能力的物种,随着测序个体数增加,新基因数量不收敛(开放泛基因组);而对于大多数真核生物,核心基因组趋于稳定(闭合)。泛基因组图同样可应用于微生物,例如,致病性大肠杆菌的泛基因组图可同时包含核心基因组和可变的毒力/耐药基因岛。

应用与未来方向

泛基因组图在生物多样性基因组学中有广泛的应用前景:

  • 结构变异发现与基因分型:结构变异是遗传多样性的主要来源之一,但短读长测序难以检测。通过将短读或长读比对到泛基因组图,可以同时发现和基因分型已知和未知的结构变异。在牛泛基因组中,鉴定出数千个与生产性状和免疫相关的结构变异;在人类中,MHC区域的结构变异与自身免疫病相关。

  • 解析适应性进化与物种形成:倒位等结构变异可通过抑制重组来维持有利等位基因组合(超级基因)。利用泛基因组图可追踪这些倒位多态性。例如,在流苏鹬中,一个超级基因决定了雄性三种不同的求偶表型;研究向日葵染色体倒位与适应性的关系,均涉及复杂结构变异的解析,而这在图中比在线性参考中更容易定位。

  • 保护基因组学:泛基因组图可评估濒危物种的遗传多样性,包括结构变异和存在/缺失变异。对于遗传多样性极低的物种,泛基因组图可以区分“核心必需基因”(受强烈净化选择)和“可变基因”(可能与环境适应相关),为遗传拯救策略提供靶点。

  • 作物与家畜育种:利用超级泛基因组图,可以快速鉴定育种材料中来自野生近缘种的有益结构变异(如抗病、耐旱、优质基因)。在番茄、水稻、玉米、猪和牛中,泛基因组已被用于标记辅助选择和基因组预测。

  • 宏基因组与微生物组:在复杂微生物群落中,泛基因组图可用于同时表征群落中的已知和未知物种,并追踪抗生素抗性基因和毒力因子在菌株间的水平转移。

未来研究方向包括:

  • 数据标准化与可扩展性:开发能够处理成百上千个高质量真核基因组的图构建算法,同时维护图的简洁性和下游分析的可计算性。

  • 可视化与解释:开发用户友好的图形界面,使生物学家能够直观地探索复杂的图结构,追踪特定变异的等位基因频率和功能注释。

  • 与其他组学的整合:将泛基因组图与转录组、表观组、蛋白质组数据整合,研究结构变异如何影响基因表达和表型。

  • 基于图的奠基性模型:开发能够直接从泛基因组图中推断等位基因频率、谱系关系和选择参数的统计模型,取代目前依赖线性参考的方法。

参考文献

  1. Secomandi, S., Gallo, G.R., Rossi, R. et al. (2025). Pangenome graphs and their applications in biodiversity genomics. Nature Genetics, 57, 13–26.

  2. Hickey, G. et al. (2024). Pangenome graph construction from genome alignments with Minigraph-Cactus. Nat. Biotechnol.

  3. Liao, W.-W. et al. (2023). A draft human pangenome reference. Nature.

  4. Garrison, E. et al. (2018). Variation graph toolkit improves read mapping by representing genetic variation in the reference. Nat. Biotechnol.

  5. Zhou, Y. et al. (2022). Graph pangenome captures missing heritability and empowers tomato breeding. Nature.

    发表评论