当前位置: 主页 > 生物技术 > 转录组学与测序技术

生物信息学之转录组学

2026-04-03 19:08 上海复祥生物科技 阅读 0
核心摘要: 转录组学是生物信息学的另一个核心应用领域 它专注于研究细胞在特定状态下所有基因转录本 即转录组 的种类 结构和表达水平 与研究DNA静态蓝图的基因组学不同 转录组学研究的是动态变化的RNA 它回答了 关键词:癌症、设计

转录组学是生物信息学的另一个核心应用领域,它专注于研究细胞在特定状态下所有基因转录本(即转录组)的种类、结构和表达水平

与研究DNA静态蓝图的基因组学不同,转录组学研究的是动态变化的RNA,它回答了“基因组中哪些基因被打开了,以及打开了多少”这个问题,是连接基因型和表型的动态桥梁。

下面为你系统梳理转录组学的核心研究内容、技术方法与应用实例。

? 核心研究内容

 
 
研究方向 核心任务 关键方法与技术 应用实例
基因表达定量 精确测量每个基因的表达水平,比较不同样本间的差异。 RNA-seq差异表达分析 (DESeq2, edgeR) 找出生病(如癌症)与健康样本之间的表达差异基因。
可变剪接分析 识别一个基因产生的不同mRNA异构体,研究其在不同条件下的变化。 rMATSSUPPA2Isoform-level定量 (Salmon, RSEM) 发现神经发育过程中关键基因的特异性剪接变体。
新转录本发现 鉴定新的基因、未注释的转录本和融合基因。 StringTieCufflinks融合基因检测 (STAR-Fusion) 在肿瘤样本中发现导致癌症的新融合基因(如BCR-ABL)。
非编码RNA研究 分析microRNA, lncRNA, circRNA等非编码RNA的表达和功能。 smallRNA-seqlncRNA鉴定 (CNCI, CPC2),ceRNA网络分析 构建疾病相关的lncRNA-miRNA-mRNA调控网络。
单细胞转录组 在单个细胞水平解析转录组的异质性。 10X GenomicsSeuratScanpy 绘制肿瘤微环境中不同免疫细胞亚型的转录图谱。

?️ 关键技术方法

转录组分析的核心是RNA测序及一套标准化的生物信息学流程:

  1. RNA-seq实验设计

    • 建库方法:选择去除非编码RNA的poly(A)富集,或包含所有RNA的核糖体RNA去除

    • 测序策略单端测序(简单便宜)或双端测序(有助于组装和异构体识别),通常读长在50-150 bp。

  2. 标准分析流程 (从原始数据到表达矩阵)

    • 原始数据质控:使用 FastQC 检查测序质量,Trimmomatic 或 cutadapt 去除接头和低质量碱基。

    • 比对到参考基因组:使用 STAR 或 HISAT2 将高质量的reads比对到参考基因组上。这些拼接比对器能很好地处理内含子。

    • 生成表达矩阵:使用 featureCounts 或 HTSeq 统计每个基因(或每个转录本)的reads计数。

    • 定量与归一化:使用 Salmon 或 RSEM 进行更准确的转录本水平定量,并输出 TPM(每百万转录本)或 FPKM(每千碱基每百万片段)等归一化表达量。

  3. 差异表达分析 (找关键基因)

    • 输入数据是表达矩阵(基因 × 样本)。

    • 核心工具:DESeq2 或 edgeR (基于负二项分布,适合小样本量)、limma (基于线性模型,适合复杂实验设计)。

    • 输出:差异倍数、显著性P值、校正后的FDR值。

    • 筛选标准:通常为 |log2(差异倍数)| > 1 (即表达变化超过2倍) 且 FDR < 0.05

  4. 功能富集分析 (解读差异基因的意义)

    • 输入是一组显著差异表达的基因。

    • 核心方法

      • GO分析:找出这些基因主要参与的生物学过程、分子功能和细胞组分。

      • KEGG通路分析:找出它们显著富集的信号转导或代谢通路。

    • 常用工具clusterProfiler (R包,功能强大)、DAVID (在线工具,易用)、Metascape (在线工具,可视化好)。

? 高级分析方向

除了基础流程,还有更多深入的分析方向:

  • 时间序列分析:研究基因在发育或处理过程中随时间的动态表达模式,使用 Mfuzz 或 STEM 软件。

  • 加权基因共表达网络分析 (WGCNA):基于表达相似性将基因划分为不同模块,将模块与表型相关联,找出与特定性状相关的核心调控基因。

  • 融合基因检测:使用 STAR-FusionArriba 等工具,在癌症等样本中检测由基因组重排产生的融合转录本。

  • 可变剪接事件分析:使用 rMATS 或 SUPPA2,定量不同类型的剪接事件(如外显子跳跃、内含子保留)在组间的差异。

? 应用实例:癌症生物标志物发现

下面通过一个简化流程,展示转录组学如何应用于寻找癌症诊断标志物:

场景:收集10例肝癌组织(肿瘤)和10例癌旁正常组织(对照),进行RNA-seq。

分析流程

  1. 原始数据处理:使用 FastQC + Trimmomatic 获得干净数据。

  2. 比对与定量:用 STAR 比对到人类参考基因组,用 featureCounts 得到基因表达矩阵。

  3. 差异表达分析:用 DESeq2 比较肿瘤 vs. 正常,筛选标准 |log2FC| > 2 且 FDR < 0.01。结果得到 500个上调基因 和 400个下调基因

  4. 功能富集分析:用 clusterProfiler 对上调基因进行KEGG分析。结果显示它们显著富集在 “细胞周期” 和 “p53信号通路”,与预期一致。

  5. 筛选与验证

    • 从上调基因中挑选出文献报道较少的 20个候选基因

    • 在更大的独立样本集(如TCGA数据库)中验证这20个基因的表达模式。

    • 最终锁定一个在95%肝癌样本中均高表达,且与患者生存期显著相关的基因 A

    • 结论:基因 A 可能是一个新的肝癌诊断标志物或治疗靶点。

? 总结

转录组学是现代分子生物学不可或缺的工具。

  • 它回答的问题是:在特定条件下,基因组的哪些部分被激活了?激活的程度如何?

  • 它的核心价值在于:提供了动态、全局、高灵敏的基因表达视图,是连接基因型与表型的直接桥梁。

  • 它与生物信息学的关系是没有标准化的计算流程,RNA-seq产生的海量数据就无法转化为有意义的生物学发现。从质控、比对到差异分析、功能富集,每一步都离不开生物信息学工具。

    发表评论