完整的遗传变异数据集是生物多样性基因组学研究的关键。长读长测序技术使得常规组装高度连续、单倍型分辨率的参考基因组成为可能。然而,即使完整,来自单个个体的参考基因组也可能使下游分析产生偏差,并且无法充分代表种群或物种内的遗传多样性。
2025年1月8日,洛克菲勒大学、米兰大学、米兰-比可卡大学等多家机构的研究人员在《自然-遗传学》上发表了一篇重要综述。该文系统回顾了用于构建、可视化和操作泛基因组图的可用工具和数据结构,提供了实际案例,并讨论了泛基因组图在整个生命树(从微生物到动植物)的生物多样性和保护基因组学中的应用。
核心内容:泛基因组图的概念与构建
该综述的核心价值在于,首次全面总结了泛基因组图这一新兴数据结构的原理、构建方法及其在生物多样性研究中的广泛适用性。
1. 从线性参考基因组到图结构
传统的线性参考基因组将序列表示为一维的字符串,而泛基因组图将来自多个个体的基因组序列并行为节点(共享序列片段)和边(节点之间的连接),形成一个有向图结构。在这个图中:
-
共同的序列表示为单一的节点。
-
个体间的差异(如单核苷酸变异、插入、缺失、结构变异、倒位)表示为从主干节点分叉出的替代路径(冒泡结构)。
-
重复区域或基因组重排可通过图中的循环或复杂分支进行建模。
这种结构克服了将单个参考基因组作为“金标准”所带来的参考偏倚——即将短读段强制比对到参考序列的独特位置,导致在参考中缺失的变异(尤其是结构变异和物种特异的序列)无法被准确检测或定量。
2. 泛基因组图的构建策略
根据研究目的和数据可用性,可采用不同的构建方法:
| 构建方法 | 描述 | 适用场景 | 代表工具 |
|---|---|---|---|
| 基于比对 | 将多个高质量基因组(组装)进行多序列比对,识别共线区域和变异,构建图结构。 | 物种内多个高连续性基因组可用;需要高精度变异图谱。 | Minigraph-Cactus, Progressive Cactus |
| 基于组装 | 将所有测序读段共同组装,直接生成包含所有个体变异的图结构(而非先组装个体基因组再合并)。 | 缺乏高质量参考或群体多样性极高;无需单独组装。 | Minigraph, SPAdes (pangenome mode) |
| 基于参考引导 | 以现有线性参考基因组为骨架,将其他的基因组序列以替代路径的形式添加进去。 | 已有良好参考基因组;重点整合结构变异和大的插入缺失。 | Minigraph, vg (construct) |
3. 泛基因组图的类型与层次
-
种内泛基因组:整合一个物种内多个个体的基因组,捕捉种内的遗传多样性。例如,人类泛基因组项目整合了47个个体的高质量基因组,识别出大量此前参考基因组中缺失的序列和结构变异;家鸡泛基因组构建了涵盖30个品种的图,鉴定了影响体型、羽色和免疫的重要结构变异。
-
超级泛基因组:整合一个属内多个物种的基因组,捕捉跨越物种边界的遗传多样性。这在作物野生近缘种中尤为重要:野生番茄超级泛基因组鉴定出与抗病、风味相关的、在驯化品种中丢失的基因;野生葡萄超级泛基因组则为抗病和抗逆育种提供了关键资源。
-
开放 vs. 闭合泛基因组:对于细菌等具有高度水平基因转移能力的物种,随着测序个体数增加,新基因数量不收敛(开放泛基因组);而对于大多数真核生物,核心基因组趋于稳定(闭合)。泛基因组图同样可应用于微生物,例如,致病性大肠杆菌的泛基因组图可同时包含核心基因组和可变的毒力/耐药基因岛。
应用与未来方向
泛基因组图在生物多样性基因组学中有广泛的应用前景:
-
结构变异发现与基因分型:结构变异是遗传多样性的主要来源之一,但短读长测序难以检测。通过将短读或长读比对到泛基因组图,可以同时发现和基因分型已知和未知的结构变异。在牛泛基因组中,鉴定出数千个与生产性状和免疫相关的结构变异;在人类中,MHC区域的结构变异与自身免疫病相关。
-
解析适应性进化与物种形成:倒位等结构变异可通过抑制重组来维持有利等位基因组合(超级基因)。利用泛基因组图可追踪这些倒位多态性。例如,在流苏鹬中,一个超级基因决定了雄性三种不同的求偶表型;研究向日葵染色体倒位与适应性的关系,均涉及复杂结构变异的解析,而这在图中比在线性参考中更容易定位。
-
保护基因组学:泛基因组图可评估濒危物种的遗传多样性,包括结构变异和存在/缺失变异。对于遗传多样性极低的物种,泛基因组图可以区分“核心必需基因”(受强烈净化选择)和“可变基因”(可能与环境适应相关),为遗传拯救策略提供靶点。
-
作物与家畜育种:利用超级泛基因组图,可以快速鉴定育种材料中来自野生近缘种的有益结构变异(如抗病、耐旱、优质基因)。在番茄、水稻、玉米、猪和牛中,泛基因组已被用于标记辅助选择和基因组预测。
-
宏基因组与微生物组:在复杂微生物群落中,泛基因组图可用于同时表征群落中的已知和未知物种,并追踪抗生素抗性基因和毒力因子在菌株间的水平转移。
未来研究方向包括:
-
数据标准化与可扩展性:开发能够处理成百上千个高质量真核基因组的图构建算法,同时维护图的简洁性和下游分析的可计算性。
-
可视化与解释:开发用户友好的图形界面,使生物学家能够直观地探索复杂的图结构,追踪特定变异的等位基因频率和功能注释。
-
与其他组学的整合:将泛基因组图与转录组、表观组、蛋白质组数据整合,研究结构变异如何影响基因表达和表型。
-
基于图的奠基性模型:开发能够直接从泛基因组图中推断等位基因频率、谱系关系和选择参数的统计模型,取代目前依赖线性参考的方法。
参考文献
-
Secomandi, S., Gallo, G.R., Rossi, R. et al. (2025). Pangenome graphs and their applications in biodiversity genomics. Nature Genetics, 57, 13–26.
-
Hickey, G. et al. (2024). Pangenome graph construction from genome alignments with Minigraph-Cactus. Nat. Biotechnol.
-
Liao, W.-W. et al. (2023). A draft human pangenome reference. Nature.
-
Garrison, E. et al. (2018). Variation graph toolkit improves read mapping by representing genetic variation in the reference. Nat. Biotechnol.
-
Zhou, Y. et al. (2022). Graph pangenome captures missing heritability and empowers tomato breeding. Nature.