导语: 计数颗粒是冷冻电镜数据中估计群体的常见做法。本文表明,计数颗粒对噪声不具有鲁棒性,而统计上严谨的群体估计方法更具弹性,并具有未来发展的潜力。该评论发表于《通讯-生物学》。
研究背景:群体估计的重要性
定义
-
生物分子在细胞内不断发生构象变化
-
给定构象的“群体”是指其在状态集合中的相对频率
-
确定这些群体对于理解生物分子如何实现其生物学功能至关重要
当前实践
-
近期多项研究使用冷冻电镜数据中的颗粒计数来报告群体
-
通过分配给3D类别或潜空间直方图的颗粒计数进行估计
-
在高信噪比下,这些计数可以反映真实群体
核心问题:噪声导致计数不可靠
群体反问题
-
群体反映构象的概率密度
-
从数据中恢复它是一个反问题:从观察到的图像集合中恢复生成这些图像的概率密度
-
观察到的数据概率 = ∫ 成像前向模型 × 构象概率密度
计数方法 vs 统计方法
| 方法 | 原理 | 对噪声的鲁棒性 |
|---|---|---|
| 计数/直方图 | 将颗粒分配到特定类别或潜空间位置 | 低(受噪声严重扭曲) |
| 统计方法(如集成重加权、反卷积) | 显式建模整个数据集的噪声和统计特性 | 高 |
基本率谬误
-
在没有构象概率密度知识的情况下分配图像,会犯基本率谬误:在单个样本上进行推断时忽略全局统计信息
实验验证
离散异质性:两状态系统(刺突蛋白)
实验设计:
-
两个状态:1-up和3-down
-
真实群体比例:80/20
-
不同噪声水平下制备数据集
结果:
-
3D分类(传统方法):随着噪声增加,群体估计迅速偏离
-
硬分配和软分配:呈现相同趋势
-
集成重加权/反卷积:即使在高噪声水平下也能给出准确的群体估计
真实数据验证(EMPIAR-12098):
-
80/20混合的3-up和2-up刺突状态
-
基线(80/20)可能不完全反映未知的真实群体
-
计数方法在姿势不确定或噪声增加时准确性下降
-
统计方法保持更准确的估计
连续异质性:IgG结构域旋转
实验设计:
-
沿二面角的多模态分布
-
高噪声下计算图像
-
使用RECOVAR(高性能方法)将颗粒分配到潜空间坐标
结果:
-
潜空间直方图:预测几乎平坦的分布,完全错过中间模式
-
反卷积方法(求解反问题):正确找到所有分布模式
对冷冻电镜实践的建议
当前问题
-
生物学结论基于3D分类或潜空间直方图分析时应谨慎
-
噪声诱导的偏差取决于:
-
噪声水平和颗粒图像的不确定性
-
构象变化的幅度和可区分性
-
推荐方法
-
使用考虑噪声和不确定性的方法(集成重加权、反卷积)
-
这些方法利用整个颗粒堆栈的统计信息,产生更可靠的估计
未来发展
-
改进前向模型
-
对姿势错误指定和低信噪比的鲁棒性
-
确定如何最好地选择或优化评估群体的结构
资源可及性
-
实验数据:EMD-50421、EMD-50422
-
模拟数据:Zenodo(https://doi.org/10.5281/zenodo.18724862)
-
代码:GitHub https://github.com/aevans1/counting_particles_paper
结语
这篇评论指出,在冷冻电镜中通过计数颗粒来估计生物分子构象群体比例的方法对噪声高度敏感,可能导致错误的生物学结论。在离散异质性(如刺突蛋白80/20混合状态)和连续异质性(如IgG结构域旋转的多模态分布)的实验中,传统3D分类和潜空间直方图方法在高噪声下均失败,而统计上严谨的集成重加权和反卷积方法能够准确恢复群体分布。评论呼吁将统计方法集成到主流冷冻电镜软件包中,减少用户对外部后处理或定性解释的依赖。
《通讯-生物学》原文:https://www.nature.com/articles/s42003-026-09859-6 (2026年3月24日)