在遗传流行病学研究中,当无法直接获取个体的疾病诊断信息时,使用代理表型(如父母的疾病史)是一种提高统计效力的常用策略。这一方法假定,如果一个人的父母患有某种疾病,那么该人可能携带相关的风险等位基因。对于阿尔茨海默病等晚发型疾病,直接对足够数量的老年患者进行全基因组关联研究存在挑战,因此代理全基因组关联研究被认为是一种有前景的替代路径。
然而,这种方法的可靠性依赖于一系列关键假设。2024年12月2日,奥胡斯大学的Emil M. Pedersen、Theresa Wimberley和Bjarni J. Vilhjálmsson在《自然-遗传学》的“新闻与观点”栏目中,对同期Wu, Y.团队发表的一项大规模代理全基因组关联研究进行了精彩解读,并发出了重要的警示。该研究指出,代理策略虽然强大,但极易受到选择偏倚和信息偏倚的影响,如果处理不当,会误导研究者对阿尔茨海默病的遗传结构产生错误认识。
核心警示:代理全基因组关联研究中的偏倚来源
该警示文章的核心价值在于,它揭示了代理病例-对照研究中三种可能扭曲遗传关联估计的偏倚来源。
1. 代理设计的原理与潜在问题
代理病例-对照设计的逻辑是:将父母被诊断为阿尔茨海默病的个体归类为“代理病例”,将父母均未患病且达到特定年龄(即已度过风险期)的个体归类为“代理对照”。然后,在这些“代理”个体中进行全基因组关联研究,寻找与“父母患病状态”相关的遗传变异。
问题在于,这一设计假设:
- 父母诊断信息的准确性(无信息偏倚)。
- 代理病例和代理对照的入选与遗传因素无关(无选择偏倚)。
- 代理个体的年龄分布与阿尔茨海默病的遗传风险无关。
2. 三项主要警告
该文章重点讨论了Wu, Y.等人研究中揭示的三类偏倚:
警告一:错误分类偏倚(信息偏倚)
- 问题:代理全基因组关联研究依赖于对父母疾病状态的不完美报告。成年子女可能对父母是否患有阿尔茨海默病记忆不清或并不知情(尤其当父母早逝或关系疏远时)。对于父母在年龄较老时发病的病例,子女更容易将其归为“正常衰老”而漏报。这导致非随机的错误分类:一些真正的父母病例被错误地分类为对照,这会稀释真实的遗传关联信号,并可能导致假阴性。
- 影响:如果错误分类在不同基因型群体中非随机分布(例如,携带APOE ε4等位基因的个体更倾向于注意到父母的记忆问题),则可能人为地引入或放大虚假关联。
警告二:入组偏倚(选择偏倚)
- 问题:代理全基因组关联研究通常依赖于自愿参与的生物银行(如英国生物银行)。参与者的入组与其自身健康状况、健康意识和遗传因素相关。例如,健康志愿者偏倚意味着,患有某些疾病(包括阿尔茨海默病的早期症状)的个体可能不太愿意参与研究。这造成了一种情况:成功入组的“代理病例”(父母患病者)可能是其子女健康状况特别好的子集,而这与子女的遗传背景有关(例如,携带保护性等位基因的个体更可能有健康的父母)。
- 影响:健康志愿者偏倚使得代理病例和代理对照在遗传构成上不再可比,可能引入虚假的遗传关联。
警告三:存活与生殖偏倚
- 问题:父母必须存活足够长的时间才能被子女报告为“未患病”且年龄足够老。此外,父母必须能够生育子女,且子女必须自愿参与研究。这意味着,分析有条件地依赖于父母生存到高龄并成功生育。在阿尔茨海默病这类疾病中,遗传风险等位基因可能与寿命缩短和生育力下降相关。因此,在分析中可被观察到的“代理对照”父母群体,实际上是携带了与长寿和生育成功相关的等位基因的子集,而这些等位基因可能与阿尔茨海默病的保护因素重叠。
- 影响:这造成了对撞偏倚。控制或分层于“父母存活到高龄”这一变量,会在遗传风险与长寿之间人为地引入负相关,扭曲了阿尔茨海默病风险等位基因的真实效应大小,甚至可能逆转关联的方向(使真正的风险等位基因看起来像是保护性的)。
3. 实证验证
Wu, Y.等人通过比较标准病例-对照全基因组关联研究(直接诊断的患者)和代理全基因组关联研究的结果,证实了上述偏倚的存在。他们发现,虽然代理全基因组关联研究能够成功重现APOE(已知最强的阿尔茨海默病风险基因)的关联信号,但对于一些效应较小的位点,代理全基因组关联研究估计的效应量显著偏低,且与通过直接诊断全基因组关联研究计算的遗传相关性低于理论预期。这表明代理设计与真实疾病状态之间并非完美对应。
对研究者的启示与建议
该警示文章为从事遗传流行病学研究的科学家提供了宝贵的建议:
- 谨慎解释:在解释代理全基因组关联研究结果时,必须明确其局限性。代理设计更适合于发现新位点,而非精确估计效应量或进行跨表型遗传相关性分析。
- 敏感性分析:进行敏感性分析以评估偏倚的潜在影响。例如,通过模拟已知偏倚强度下的遗传效应变化;或仅使用那些报告父母诊断信息高度可靠的子样本(如父母诊断信息来自医疗记录而非子女回忆)。
- 交叉验证:将代理全基因组关联研究结果与来自临床确诊患者的标准病例-对照全基因组关联研究(即使样本量较小)进行直接比较,以校准效应估计并识别潜在虚假关联。
- 探索方法学改进:开发统计方法以校正入组偏倚和存活偏倚,例如,利用亲属死亡原因登记数据来模拟不可观察的父母生存选择,或使用逆概率加权使样本更具代表性。
结论
代理全基因组关联研究是一种强大的工具,可用于增强晚发型疾病的遗传发现,尤其是在无法直接获得大量老年患者样本的情况下。然而,生物银行样本的入组机制和代理报告的固有特性引入的选择偏倚和信息偏倚,使该方法具有潜在的误导性。研究者在使用和解释代理全基因组关联研究时,必须保持高度的警觉,进行严格的敏感性分析,并将结果与基于直接诊断的研究进行验证。只有在充分理解并尽力修正这些偏倚后,代理全基因组关联研究才能真正兑现其揭示阿尔茨海默病及其他复杂疾病遗传结构的承诺。
参考文献
- Pedersen, E.M., Wimberley, T. & Vilhjálmsson, B.J. (2024). A cautionary tale for Alzheimer’s disease GWAS by proxy. Nature Genetics, 56, 2590–2591.
- Wu, Y. et al. (2024). Genome-wide association study of parental history of Alzheimer’s disease. Nature Genetics. https://doi.org/10.1038/s41588-024-01963-9
- Liu, J. Z., Erlich, Y. & Pickrell, J. K. (2017). Case–control association mapping by proxy using family history of disease. Nat. Genet.
- Hujoel, M. L. A. et al. (2020). Influences of age, sex, and geography on genetic architecture of Alzheimer’s disease. Nat. Genet.
- Pirastu, N. et al. (2021). Genetic analyses identify widespread sex-differential participation bias. Nat. Genet.