转录组学是生物信息学的另一个核心应用领域,它专注于研究细胞在特定状态下所有基因转录本(即转录组)的种类、结构和表达水平。
与研究DNA静态蓝图的基因组学不同,转录组学研究的是动态变化的RNA,它回答了“基因组中哪些基因被打开了,以及打开了多少”这个问题,是连接基因型和表型的动态桥梁。
下面为你系统梳理转录组学的核心研究内容、技术方法与应用实例。
? 核心研究内容
| 研究方向 | 核心任务 | 关键方法与技术 | 应用实例 |
|---|---|---|---|
| 基因表达定量 | 精确测量每个基因的表达水平,比较不同样本间的差异。 | RNA-seq,差异表达分析 (DESeq2, edgeR) | 找出生病(如癌症)与健康样本之间的表达差异基因。 |
| 可变剪接分析 | 识别一个基因产生的不同mRNA异构体,研究其在不同条件下的变化。 | rMATS, SUPPA2,Isoform-level定量 (Salmon, RSEM) | 发现神经发育过程中关键基因的特异性剪接变体。 |
| 新转录本发现 | 鉴定新的基因、未注释的转录本和融合基因。 | StringTie, Cufflinks,融合基因检测 (STAR-Fusion) | 在肿瘤样本中发现导致癌症的新融合基因(如BCR-ABL)。 |
| 非编码RNA研究 | 分析microRNA, lncRNA, circRNA等非编码RNA的表达和功能。 | smallRNA-seq,lncRNA鉴定 (CNCI, CPC2),ceRNA网络分析 | 构建疾病相关的lncRNA-miRNA-mRNA调控网络。 |
| 单细胞转录组 | 在单个细胞水平解析转录组的异质性。 | 10X Genomics,Seurat, Scanpy | 绘制肿瘤微环境中不同免疫细胞亚型的转录图谱。 |
?️ 关键技术方法
转录组分析的核心是RNA测序及一套标准化的生物信息学流程:
-
RNA-seq实验设计
-
建库方法:选择去除非编码RNA的poly(A)富集,或包含所有RNA的核糖体RNA去除。
-
测序策略:单端测序(简单便宜)或双端测序(有助于组装和异构体识别),通常读长在50-150 bp。
-
-
标准分析流程 (从原始数据到表达矩阵)
-
原始数据质控:使用 FastQC 检查测序质量,Trimmomatic 或 cutadapt 去除接头和低质量碱基。
-
比对到参考基因组:使用 STAR 或 HISAT2 将高质量的reads比对到参考基因组上。这些拼接比对器能很好地处理内含子。
-
生成表达矩阵:使用 featureCounts 或 HTSeq 统计每个基因(或每个转录本)的reads计数。
-
定量与归一化:使用 Salmon 或 RSEM 进行更准确的转录本水平定量,并输出 TPM(每百万转录本)或 FPKM(每千碱基每百万片段)等归一化表达量。
-
-
差异表达分析 (找关键基因)
-
输入数据是表达矩阵(基因 × 样本)。
-
核心工具:DESeq2 或 edgeR (基于负二项分布,适合小样本量)、limma (基于线性模型,适合复杂实验设计)。
-
输出:差异倍数、显著性P值、校正后的FDR值。
-
筛选标准:通常为
|log2(差异倍数)| > 1(即表达变化超过2倍) 且FDR < 0.05。
-
-
功能富集分析 (解读差异基因的意义)
-
输入是一组显著差异表达的基因。
-
核心方法:
-
GO分析:找出这些基因主要参与的生物学过程、分子功能和细胞组分。
-
KEGG通路分析:找出它们显著富集的信号转导或代谢通路。
-
-
常用工具:clusterProfiler (R包,功能强大)、DAVID (在线工具,易用)、Metascape (在线工具,可视化好)。
-
? 高级分析方向
除了基础流程,还有更多深入的分析方向:
-
时间序列分析:研究基因在发育或处理过程中随时间的动态表达模式,使用 Mfuzz 或 STEM 软件。
-
加权基因共表达网络分析 (WGCNA):基于表达相似性将基因划分为不同模块,将模块与表型相关联,找出与特定性状相关的核心调控基因。
-
融合基因检测:使用 STAR-Fusion、Arriba 等工具,在癌症等样本中检测由基因组重排产生的融合转录本。
-
可变剪接事件分析:使用 rMATS 或 SUPPA2,定量不同类型的剪接事件(如外显子跳跃、内含子保留)在组间的差异。
? 应用实例:癌症生物标志物发现
下面通过一个简化流程,展示转录组学如何应用于寻找癌症诊断标志物:
场景:收集10例肝癌组织(肿瘤)和10例癌旁正常组织(对照),进行RNA-seq。
分析流程:
-
原始数据处理:使用 FastQC + Trimmomatic 获得干净数据。
-
比对与定量:用 STAR 比对到人类参考基因组,用 featureCounts 得到基因表达矩阵。
-
差异表达分析:用 DESeq2 比较肿瘤 vs. 正常,筛选标准
|log2FC| > 2且FDR < 0.01。结果得到 500个上调基因 和 400个下调基因。 -
功能富集分析:用 clusterProfiler 对上调基因进行KEGG分析。结果显示它们显著富集在 “细胞周期” 和 “p53信号通路”,与预期一致。
-
筛选与验证:
-
从上调基因中挑选出文献报道较少的 20个候选基因。
-
在更大的独立样本集(如TCGA数据库)中验证这20个基因的表达模式。
-
最终锁定一个在95%肝癌样本中均高表达,且与患者生存期显著相关的基因 A。
-
结论:基因 A 可能是一个新的肝癌诊断标志物或治疗靶点。
-
? 总结
转录组学是现代分子生物学不可或缺的工具。
-
它回答的问题是:在特定条件下,基因组的哪些部分被激活了?激活的程度如何?
-
它的核心价值在于:提供了动态、全局、高灵敏的基因表达视图,是连接基因型与表型的直接桥梁。
-
它与生物信息学的关系是:没有标准化的计算流程,RNA-seq产生的海量数据就无法转化为有意义的生物学发现。从质控、比对到差异分析、功能富集,每一步都离不开生物信息学工具。