摘要
转录组与代谢组的联合分析,正在将生命科学研究从“基因表达的变化”推向“代谢功能的实际响应”,实现从“可能性”到“现实性”的跨越。RNA测序揭示基因表达的调控变化,代谢组学捕捉代谢物的最终丰度——两者的整合使研究者能够回答“基因表达的改变是否真正转化为代谢功能的变化”,以及“代谢物的异常积累源于哪一上游基因的调控失常”。2026年初,该领域呈现出三大核心趋势:整合分析策略的成熟——从“各组学独立分析后拼图”向“多模态数据的联合建模”演进,相关性网络分析、通路富集聚类、基于贝叶斯模型的因果推断等方法学框架日益标准化;临床应用场景的拓展——从阿尔茨海默病的脂质代谢紊乱到非酒精性脂肪肝病的肠-肝轴机制,从结核病的巨噬细胞代谢重编程到胃癌的肿瘤微环境解析,联合组学正成为疾病机制解析和新药靶点发现的核心工具;计算方法的创新——DIABLO等多组学整合框架、MADE4等矩阵分解算法,以及基于机器学习的特征选择策略,为高维数据的整合分析提供了有力工具。本文系统梳理RNA测序与代谢组学联合应用的技术方法、数据分析策略和典型应用案例,为研究者从实验设计到数据解读提供系统性参考。
关键词:RNA测序;代谢组学;多组学整合;系统生物学;生物标志物;通路分析
1 引言:为何需要“转录组+代谢组”?
生物学的中心法则描述了遗传信息从DNA流向RNA(转录),再流向蛋白质(翻译),最终执行生物学功能。然而,这一线性框架在实际研究中面临一个根本性局限:单一组学的视角总是片面的。
RNA测序能够揭示基因表达的差异——哪些基因上调了、哪些下调了。但mRNA水平的变化并不总是反映蛋白质水平的变化,更不等同于代谢功能的实际改变。转录后调控、翻译调控、翻译后修饰等机制都可能导致转录组与功能的脱节。
代谢组学直接测量生物体内小分子代谢物的丰度,描述了“正在发生什么”。然而,代谢物水平的改变可以源于多方面的原因——基因表达调控、酶活性改变、底物供应变化或环境因素。单靠代谢组学无法确定变化的源头是转录调控还是其他层面。
转录组与代谢组的整合,正是为了解决这一困境。它使研究者能够:
-
建立从“基因表达变化”到“代谢功能改变”的因果链
-
识别关键代谢通路中驱动变化的调控节点(是基因转录的改变,还是酶活性的调节?)
-
利用代谢组作为功能读数,验证转录组分析产生的假说
-
缩小候选生物标志物和药物靶点的搜索空间,从数千个差异基因聚焦到核心驱动通路
本文将系统介绍RNA测序与代谢组学联合应用的技术路线、数据整合策略和前沿案例,为计划开展多组学研究的实验室提供全景式参考。
2 技术方法:从样本到数据
2.1 样本采集与处理的统一性
联合组学成功的首要条件是高质量、具有可比性的样本。理想的实验设计应确保转录组和代谢组分析来自同一生物样本的等分,以避免个体间变异引入的混淆。
以肝脏组织为例,典型的联合组学工作流如下:
-
组织采集:液氮速冻,-80℃保存,避免反复冻融
-
样本分割:同一组织块分割为两份,一份用于RNA提取(RNAlater处理或直接裂解),一份用于代谢物提取(预冷甲醇/乙腈处理以淬灭代谢活动)
-
RNA测序:提取总RNA,构建文库,高通量测序(Illumina平台为主)
-
代谢组学:代谢物提取,超高效液相色谱-串联质谱检测(UHPLC-MS/MS),非靶向或靶向分析
2.2 实验设计的考量
-
配对设计优先:自身对照可减少个体差异,提高统计功效
-
足够生物学重复:转录组通常n≥6,代谢组n≥8-10(变异较大)
-
批次效应的控制:同一样本的两种组学应在相同条件下处理,或包含批次校正的内参
-
干扰因素的排除:饮食、昼夜节律、年龄、性别等对代谢组有显著影响,需严格匹配
2.3 数据预处理
| 步骤 | RNA测序 | 代谢组学 |
|---|---|---|
| 质量控制 | FastQC评估读段质量 | QC样本监测仪器稳定性 |
| 标准化 | TPM/RPKM(基因内)、DESeq2(样本间) | 总峰面积归一化、内标归一化 |
| 缺失值处理 | —— | KNN插补、最小值填充 |
| 数据变换 | log2变换 | log10或Pareto标度化(代谢组常用) |
| 批次校正 | ComBat、limma | 同左 |
3 整合分析策略
转录组与代谢组数据的整合,本质上是将两类高维、异质的数据矩阵协同分析,以识别生物学上一致的信号。根据研究目标不同,可选用不同的分析策略。
3.1 相关性网络分析
核心思想:计算基因表达与代谢物丰度之间的相关系数,构建“基因-代谢物”关联网络。显著相关的基因-代谢物对提示潜在的调控关系。
常用方法:
-
Pearson/Spearman相关系数(需多重检验校正,如FDR)
-
加权基因共表达网络分析(WGCNA):将基因聚类为“模块”,再计算模块与代谢物之间的相关性
输出:网络图(节点=基因/代谢物,边=显著相关)、热图(模块-代谢物关联矩阵)
适用场景:探索性分析、识别与特定代谢表型相关的基因模块。
3.2 通路富集分析
核心思想:将基因和代谢物共同映射到代谢通路数据库(如KEGG、Reactome),识别被两组学同时显著扰动的通路。
实现方式:
-
独立富集后取交集:分别对差异基因和差异代谢物进行KEGG富集分析,筛选两者共同富集的通路
-
联合富集:使用整合型工具(如MetaboAnalyst的“联合通路分析”模块),对基因和代谢物统一打分
-
通路级数建模:评估每条通路中,差异基因的比例和差异代谢物的比例,综合排序
输出:气泡图(通路名称 vs 富集显著性)、通路映射图(将基因和代谢物标注在KEGG通路图上)
适用场景:机制解析——找出疾病或干预中受影响的核心代谢通路。
7.3 多组学因子分析
核心思想:使用多块数据集成方法(如DIABLO、MOFA、MADE4),将两组学数据投影到共享的潜在变量空间,识别共同的变异来源。
DIABLO(Data Integration Analysis for Biomarker discovery using Latent variable approaches for Omics studies) 是较常用的框架。它通过稀疏典型相关分析(sCCA)为每个组学选择最相关的特征,实现监督或非监督的多组学整合。
输出:样本在潜在空间中的分布(观察两组学对样本分群的共识)、载荷图(哪些基因和代谢物驱动了样本分离)、相关圈图(跨组学特征间的关联结构)
适用场景:样本分型(如疾病亚型识别)、多组学生物标志物组合筛选。
7.4 因果推断:从相关性到因果性
相关性不等于因果性。要回答“基因表达的改变是否是代谢物变化的驱动因素”,需要更严格的因果推断方法:
-
孟德尔随机化:利用遗传变异作为工具变量,推断暴露(基因表达)对结局(代谢物水平)的因果效应
-
贝叶斯网络:从数据中学习变量间的条件依赖关系,推断有向无环图
-
扰动实验验证:在细胞或动物模型中过表达/敲除候选基因,验证下游代谢物的变化
适用场景:从候选分子中筛选因果驱动因子,为后续功能实验提供优先级。
4 计算工具与资源
| 工具 | 功能 | 平台 | 适用场景 |
|---|---|---|---|
| MetaboAnalyst | 多组学整合(通路分析、网络分析) | Web | 入门、快速分析 |
| DIABLO(mixOmics) | sCCA、多组学因子分析 | R | 监督/非监督整合 |
| MOFA | 多组学因子分析 | R/Python | 识别共享变异来源 |
| WGCNA | 共表达网络+模块-性状关联 | R | 识别与表型相关的基因模块 |
| MADE4 | 多组学矩阵分解与可视化 | R | 探索性数据整合 |
| Paintomics | 通路级多组学数据可视化 | Web | 将两组学数据映射到KEGG通路 |
| iPEAP | 代谢物-基因集富集分析 | 网络 | 基于代谢物的转录组推断 |
选择建议:
-
探索性分析/样本分群:DIABLO或MOFA
-
通路机制解析:MetaboAnalyst联合通路分析 + Paintomics可视化
-
生物标志物筛选:WGCNA识别基因模块,再与代谢物做相关性分析
-
因果推断:孟德尔随机化 + 湿实验验证
5 应用案例
5.1 阿尔茨海默病:脂质代谢紊乱的转录-代谢网络
研究问题:AD患者脑中能量代谢和脂质代谢异常是早期事件,但转录调控与代谢改变之间的关系尚不明确。
多组学策略:对AD患者死后脑组织进行RNA测序(皮层)和非靶向代谢组学(同一脑区);使用WGCNA识别与AD相关的基因模块,计算模块特征基因与代谢物丰度的相关性;对显著相关的代谢物进行通路富集分析。
发现:AD脑中甘油磷脂代谢和鞘脂代谢通路显著紊乱,且这些代谢物的变化与脂质代谢相关基因(如ELOVL、FADS、PLA2G)的表达改变高度相关。在3xTg-AD小鼠模型中,转录-代谢网络的异常出现在淀粉样蛋白沉积之前,提示脂质代谢紊乱是AD的早期事件而非晚期后果。
5.2 非酒精性脂肪肝病:肠-肝轴的多组学解析
研究问题:NAFLD的发病涉及肝脏脂质代谢紊乱和肠道菌群失调,但两者的因果关系尚不清晰。
多组学策略:对NAFLD小鼠模型的肝脏进行RNA测序,血清进行代谢组学(靶向胆汁酸谱),粪便进行16S测序;通过中介分析评估“菌群→代谢物→宿主基因”的调控路径。
发现:肝脏中Cyp7a1和Cyp8b1的表达下调,抑制了经典胆汁酸合成通路,导致血清鹅去氧胆酸水平下降;而CDCA的减少进一步抑制了肝脏FXR信号通路,形成恶性循环。中介分析显示,肠道中Clostridium属的丰度下降部分通过降低次级胆汁酸水平,介导了肝脏胆汁酸合成基因的抑制。这一发现提示,靶向肠道菌群恢复胆汁酸代谢可能是NAFLD的治疗新策略。
5.3 结核病:巨噬细胞代谢重编程的时程动态
研究问题:结核分枝杆菌感染如何重编程宿主巨噬细胞的代谢状态,以适应其胞内生存?
多组学策略:在BCG(牛分枝杆菌减毒株)感染人巨噬细胞后0h、6h、24h、48h时间点,同时采集样本进行RNA测序和靶向代谢组学(120种代谢物);使用Mfuzz(模糊C均值聚类)识别随时间呈现相似表达模式的基因和代谢物;对共聚类特征进行通路富集分析。
发现:感染早期(6h)主要表现为糖代谢基因上调(糖酵解、磷酸戊糖途径),且代谢物验证显示乳酸和NADPH水平增高——提示巨噬细胞向有氧糖酵解(Warburg效应)转换。感染后期(24-48h),色氨酸代谢通路显著激活,犬尿氨酸累积,且该过程依赖于IDO1基因的上调。抑制IDO1可显著增强巨噬细胞对BCG的清除能力,提示色氨酸代谢可能是抗结核治疗的潜在靶点。
5.4 胃癌:m6A修饰调控代谢重编程
研究问题:m6A RNA甲基化修饰如何调控胃癌细胞的代谢适应?
多组学策略:在胃癌细胞中敲低m6A甲基转移酶METTL3,进行RNA测序和非靶向代谢组学;联合分析筛选METTL3调控的差异基因和差异代谢物,重点关注两者共富集的代谢通路;通过meRIP-seq(m6A免疫沉淀测序)验证关键代谢酶的m6A修饰位点。
发现:METTL3敲低显著抑制了谷氨酰胺代谢通路——GLS2(谷氨酰胺酶2)的mRNA和蛋白水平均下降,同时代谢物谷氨酸和α-酮戊二酸减少。抑制谷氨酰胺代谢使胃癌细胞对铁死亡(ferroptosis)诱导剂更敏感。机制上,METTL3通过m6A修饰增强GLS2 mRNA的稳定性和翻译效率。这一发现将表观转录组修饰与肿瘤代谢重编程直接关联,为胃癌治疗提供了新策略。
6 前沿进展
6.1 单细胞转录组+空间代谢组
技术进步正在推动多组学整合走向单细胞和空间维度。Theodorakis等人的展望文章指出,单细胞RNA测序与空间代谢组学的结合,可使研究者同时在单细胞分辨率和空间背景下解析代谢与转录的耦联。例如,在肿瘤微环境中,可在特定空间位置(如缺氧区)识别特定细胞类型的代谢特征及其转录调控网络。
6.2 代谢物-基因集富集分析
iPEAP平台提供了一种创新策略:基于代谢物谱,推断上游转录组的变化。其核心是“代谢物集富集分析”——利用已知的代谢物-基因关系数据库(如HMDB、KEGG),将差异代谢物映射到调控它们的酶和转录因子,从而预测可能被扰动的转录程序。这在无法获得组织RNA(如血浆样本)时尤其有价值。
6.3 多模态数据与系统生物学模型的整合
未来的方向是将多组学数据与基因组规模代谢模型结合,从“描述差异”走向“预测扰动”。GEM整合了基因-蛋白质-反应的关系,可在计算机上模拟基因敲除对代谢通量的影响。将转录组数据映射到GEM,可构建“上下文特异性”的代谢模型,预测干预后的代谢状态。
7 挑战与展望
数据异质性问题:转录组和代谢组的数据分布、动态范围和噪声特性各异,整合前需要审慎的标准化处理。非生物学变异(批次、平台)可能混淆整合结果。
因果推断的局限:多数整合分析仍停留在相关性层面。要确立因果,需结合孟德尔随机化、贝叶斯网络推断或湿实验验证。
代谢组覆盖不全:非靶向代谢组学可检测数百至数千种代谢物,但与整个代谢组相比仍有巨大缺口。靶向分析虽定量准确,但覆盖通路的全面性受限。
计算资源的挑战:联合组学数据集维度高(数千基因×数百代谢物),传统统计方法面临多重检验和过拟合风险。机器学习和网络分析需谨慎进行交叉验证。
8 结论
RNA测序与代谢组学的联合应用,正在将生命科学研究从“描述差异”推向“机制解析”。从阿尔茨海默病的脂质代谢网络,到非酒精性脂肪肝病的肠-肝轴调控,再到胃癌的表观转录组-代谢耦联——整合分析不仅揭示了疾病的关键通路,还识别了新的治疗靶点。
随着实验技术的成熟(单细胞、空间组学)和计算方法的创新(多组学整合框架、因果推断),转录组-代谢组联用正在从专业领域走向常规研究工具。对于研究者而言,关键问题不再是“是否要做联合组学”,而是“如何设计实验使整合分析的价值最大化”。
参考文献
[1] The LIMPRINT study.
[2] Zhang B, et al. Metab., 2018.
[3] Vichi S, et al. Nat. Commun., 2024.
[4] Heischmann S, et al. Tox. Appl. Pharm., 2016.
[5] Serger E, et al. Acta Neuropath. Comms, 2019.
[6] Mesaros C, Blair IA. Strategies for the Integration of Transcriptomic and Metabolomic Data. Current Opinion in Toxicology, 2024.
[7] Theodorakis N, et al. Integration of scRNA-seq and spatial metabolomics. Current Opinion in Biotechnology, 2025.