生物信息学之转录组学

2026-04-03 19:08 上海复祥生物科技阅读 0

核心摘要： 转录组学是生物信息学的另一个核心应用领域它专注于研究细胞在特定状态下所有基因转录本即转录组的种类结构和表达水平与研究DNA静态蓝图的基因组学不同转录组学研究的是动态变化的RNA 它回答了关键词：癌症、设计

转录组学是生物信息学的另一个核心应用领域，它专注于研究细胞在特定状态下所有基因转录本（即转录组）的种类、结构和表达水平。

与研究DNA静态蓝图的基因组学不同，转录组学研究的是动态变化的RNA，它回答了“基因组中哪些基因被打开了，以及打开了多少”这个问题，是连接基因型和表型的动态桥梁。

下面为你系统梳理转录组学的核心研究内容、技术方法与应用实例。

? 核心研究内容

研究方向	核心任务	关键方法与技术	应用实例
基因表达定量	精确测量每个基因的表达水平，比较不同样本间的差异。	RNA-seq，差异表达分析 (DESeq2, edgeR)	找出生病（如癌症）与健康样本之间的表达差异基因。
可变剪接分析	识别一个基因产生的不同mRNA异构体，研究其在不同条件下的变化。	rMATS, SUPPA2，Isoform-level定量 (Salmon, RSEM)	发现神经发育过程中关键基因的特异性剪接变体。
新转录本发现	鉴定新的基因、未注释的转录本和融合基因。	StringTie, Cufflinks，融合基因检测 (STAR-Fusion)	在肿瘤样本中发现导致癌症的新融合基因（如BCR-ABL）。
非编码RNA研究	分析microRNA, lncRNA, circRNA等非编码RNA的表达和功能。	smallRNA-seq，lncRNA鉴定 (CNCI, CPC2)，ceRNA网络分析	构建疾病相关的lncRNA-miRNA-mRNA调控网络。
单细胞转录组	在单个细胞水平解析转录组的异质性。	10X Genomics，Seurat, Scanpy	绘制肿瘤微环境中不同免疫细胞亚型的转录图谱。

?️ 关键技术方法

转录组分析的核心是RNA测序及一套标准化的生物信息学流程：

RNA-seq实验设计
- 建库方法：选择去除非编码RNA的poly(A)富集，或包含所有RNA的核糖体RNA去除。
- 测序策略：单端测序（简单便宜）或双端测序（有助于组装和异构体识别），通常读长在50-150 bp。
标准分析流程 (从原始数据到表达矩阵)
- 原始数据质控：使用 FastQC 检查测序质量，Trimmomatic 或 cutadapt 去除接头和低质量碱基。
- 比对到参考基因组：使用 STAR 或 HISAT2 将高质量的reads比对到参考基因组上。这些拼接比对器能很好地处理内含子。
- 生成表达矩阵：使用 featureCounts 或 HTSeq 统计每个基因（或每个转录本）的reads计数。
- 定量与归一化：使用 Salmon 或 RSEM 进行更准确的转录本水平定量，并输出 TPM（每百万转录本）或 FPKM（每千碱基每百万片段）等归一化表达量。
差异表达分析 (找关键基因)
- 输入数据是表达矩阵（基因 × 样本）。
- 核心工具：DESeq2 或 edgeR (基于负二项分布，适合小样本量)、limma (基于线性模型，适合复杂实验设计)。
- 输出：差异倍数、显著性P值、校正后的FDR值。
- 筛选标准：通常为 |log2(差异倍数)| > 1 (即表达变化超过2倍) 且 FDR < 0.05。
功能富集分析 (解读差异基因的意义)
- 输入是一组显著差异表达的基因。
- 核心方法：
  - GO分析：找出这些基因主要参与的生物学过程、分子功能和细胞组分。
  - KEGG通路分析：找出它们显著富集的信号转导或代谢通路。
- 常用工具：clusterProfiler (R包，功能强大)、DAVID (在线工具，易用)、Metascape (在线工具，可视化好)。

? 高级分析方向

除了基础流程，还有更多深入的分析方向：

时间序列分析：研究基因在发育或处理过程中随时间的动态表达模式，使用 Mfuzz 或 STEM 软件。
加权基因共表达网络分析 (WGCNA)：基于表达相似性将基因划分为不同模块，将模块与表型相关联，找出与特定性状相关的核心调控基因。
融合基因检测：使用 STAR-Fusion、Arriba 等工具，在癌症等样本中检测由基因组重排产生的融合转录本。
可变剪接事件分析：使用 rMATS 或 SUPPA2，定量不同类型的剪接事件（如外显子跳跃、内含子保留）在组间的差异。

? 应用实例：癌症生物标志物发现

下面通过一个简化流程，展示转录组学如何应用于寻找癌症诊断标志物：

场景：收集10例肝癌组织（肿瘤）和10例癌旁正常组织（对照），进行RNA-seq。

分析流程：

原始数据处理：使用 FastQC + Trimmomatic 获得干净数据。
比对与定量：用 STAR 比对到人类参考基因组，用 featureCounts 得到基因表达矩阵。
差异表达分析：用 DESeq2 比较肿瘤 vs. 正常，筛选标准 |log2FC| > 2 且 FDR < 0.01。结果得到 500个上调基因和 400个下调基因。
功能富集分析：用 clusterProfiler 对上调基因进行KEGG分析。结果显示它们显著富集在 “细胞周期” 和 “p53信号通路”，与预期一致。
筛选与验证：
- 从上调基因中挑选出文献报道较少的 20个候选基因。
- 在更大的独立样本集（如TCGA数据库）中验证这20个基因的表达模式。
- 最终锁定一个在95%肝癌样本中均高表达，且与患者生存期显著相关的基因 A。
- 结论：基因 A 可能是一个新的肝癌诊断标志物或治疗靶点。

? 总结

转录组学是现代分子生物学不可或缺的工具。

它回答的问题是：在特定条件下，基因组的哪些部分被激活了？激活的程度如何？
它的核心价值在于：提供了动态、全局、高灵敏的基因表达视图，是连接基因型与表型的直接桥梁。
它与生物信息学的关系是：没有标准化的计算流程，RNA-seq产生的海量数据就无法转化为有意义的生物学发现。从质控、比对到差异分析、功能富集，每一步都离不开生物信息学工具。

TAGS: 基因癌症设计转录组学生物信息学

发表评论

上一篇：斑马鱼单细胞转录组学研究进展：从发育图谱到疾病模型

下一篇：我国科学家利用新一代测序技术构建家蚕丝腺甲基化谱