当前位置: 主页 > 生物技术 > 单细胞与空间组学

单细胞基因组学中基于参考的细胞类型标注的不确定性估计

2026-04-29 23:22 Ergen, C. 等 Nature Genetics 阅读 0
核心摘要: 本文介绍了一种名为popV的新方法,通过集成多种算法的预测结果并结合细胞本体论,量化单细胞类型标注的不确定性。该方法能够有效区分高置信度和低置信度的细胞标注,指导人工审查并提升注释效率,在大规模单细胞数据分析中具有重要应用价值。

单细胞转录组学能够以前所未有的分辨率解析细胞异质性,其核心任务之一是将单个细胞分配到特定的细胞类型或状态。随着参考图谱(如人类细胞图谱、Tabula Sapiens)的不断完善,基于参考的自动注释方法已成为大规模单细胞数据集分析的标准流程。然而,现有的自动注释方法在预测准确性、稳健性和不确定性量化方面存在显著差异,使得研究人员难以判断哪些标注是可靠的,哪些需要人工审查。

2024年11月26日,《自然-遗传学》发表了一项研究简报,介绍Ergen, C.团队研发的popV(Prediction of cell type labels with voting)方法。popV是一种集成方法,通过对多种不同算法的预测结果进行投票,并引入细胞本体论启发的共识机制,能够突出显示低置信度的标注,从而指导注释过程中的人工参与环节。

核心内容:PopV方法的设计与优势

该研究的核心价值在于,首次为单细胞类型标注提供了一个系统性的不确定性量化框架,而非仅仅报告单一模型的“最佳猜测”。

1. 现有自动注释方法的局限性

目前主流的自动注释方法可分为几类:

  • 基于相关性:将细胞与参考图谱中的“签名”或“质心”进行比较(如SingleR、scmap)。

  • 基于机器学习:使用随机森林、支持向量机等分类器在参考数据上训练模型(如scnap、ACTINN)。

  • 基于深度生成模型:利用变分自编码器等模型将查询数据投影到参考数据的潜在空间中(如scVI、scANVI)。

这些方法各有优缺点:

  • 在参考和查询数据来自相似组织/条件下,通常表现良好。

  • 当查询数据包含参考中未出现的新细胞类型、批次效应强烈、或细胞处于连续发育/过渡状态时,不同方法的预测结果可能高度不一致,且难以评估哪种方法更可靠。

  • 大多数方法不提供预测置信度,或提供的置信度估计不可靠(如softmax概率往往过于自信)。

2. PopV的集成投票策略

popV通过集成多种基础方法(包括基于相关性的、机器学习的和深度学习的方法)的预测结果,并采用创新的投票机制来提高注释的稳健性和可靠性:

  • 基础预测:运行多个不同的标注算法,每个算法都对每个细胞给出一个预测标签。

  • 一致性评估:对于每个细胞,popV计算不同算法预测标签的一致程度。高度一致的细胞(例如,所有或大多数算法都预测为“兴奋性神经元”)被标记为高置信度,可以直接用于下游分析。

  • 不确定性量化:对于预测冲突的细胞(例如,部分算法预测为“中间神经元”,另一部分预测为“少突胶质细胞”),popV将其标记为低置信度。这些细胞是需要专家人工审查或进一步实验验证的“模糊”细胞。

3. 基于细胞本体论的语义共识

popV的创新点之一是引入了细胞本体论——一个标准化的、层级化的细胞类型术语体系。不同于简单地将“神经胶质细胞”和“星形胶质细胞”视为完全不同的标签(尽管后者是前者的子类),popV能够利用本体关系来评估预测的语义相似度。如果两种算法分别预测“星形胶质细胞”和“反应性星形胶质细胞”,尽管具体术语不同,但popV会认为这是一种部分共识(因为存在祖先-后代关系),从而提高该预测的置信度得分。这避免了因术语细粒度不同而低估一致性的问题。

4. 与主动学习的整合

popV的输出可以无缝对接到主动学习框架中。主动学习是一种机器学习策略,其中模型可以主动选择哪些未标记样本应由专家(人工)标注,以最有效地提高模型性能。popV的低置信度细胞正是主动学习中最有价值的候选对象。通过将人工审查精力聚焦在最不确定的细胞上,而不是随机抽样或审查所有细胞,可以极大提高注释效率和准确性。

应用与意义

该方法对单细胞数据分析实践具有重要指导价值:

  • 提升大规模图谱项目的可扩展性:在人类细胞图谱等项目中,数十亿个细胞需要被分类。完全依赖人工审查是不可行的。popV提供了一个自动化的不确定性过滤机制,使得只有一小部分“疑难”细胞需要人工介入,从而显著加快注释速度。

  • 改善罕见细胞类型的发现:罕见细胞类型或过渡态细胞通常与已知参考图谱的相似度较低,容易被多种方法错误分类(导致预测冲突)。popV的冲突信号本身就可作为鉴定潜在新细胞类型的筛选工具。

  • 跨数据集和跨技术集成:当整合来自不同平台(如10x和Drop-seq)、不同实验室、甚至不同物种的数据时,批次效应会加剧注释的不确定性。popV可帮助识别那些受批次影响最严重的细胞群,指导在整合分析前进行更精细的批次校正。

  • 临床诊断辅助:在基于单细胞数据的临床诊断中(如循环肿瘤细胞检测、产前诊断),错误的细胞类型标注可能导致灾难性的临床决策。popV提供的不确定性估计可为生成可解释的、带有置信区间的诊断报告奠定基础。

未来方向

尽管popV代表了重要进步,但仍存在改进空间:

  • 扩展到多模态数据:当前的popV主要针对转录组数据。未来的版本应整合染色质可及性、表面蛋白表达(CITE-seq)等多模态信息进行联合标注。

  • 开发针对空间的标注不确定性:当应用于空间转录组数据时,应利用空间邻近性(相邻细胞倾向于相同或相互作用的类型)来进一步校准不确定性估计。

  • 更好的基准测试:需要建立标准化的基准测试框架,系统评估不同集成策略(投票vs.加权投票vs.堆叠泛化)在各种挑战场景(批次效应、新类型、连续谱系)下的性能。

  • 计算效率:popV需要运行多个基础方法,计算成本较高。未来的优化应减少冗余计算,或开发轻量级的集成策略。

参考文献

  1. Ergen, C. et al. (2024). Consensus prediction of cell type labels in single-cell data with popV. Nature Geneticshttps://doi.org/10.1038/s41588-024-01993-3

  2. Osumi-Sutherland, D. et al. (2021). Cell type ontologies of the Human Cell Atlas. Nat. Cell Biol.

  3. Gayoso, A. et al. (2022). A Python library for probabilistic analysis of single-cell omics data. Nat. Biotech.

  4. Xu, C. et al. (2021). Probabilistic harmonization and annotation of single-cell transcriptomics data with deep generative models. Mol. Syst. Biol.

  5. Jones, R. C. et al. (2022). The Tabula Sapiens: a multiple-organ, single-cell transcriptomic atlas of humans. Science.

    发表评论