跳转至

852. 全长转录组分析

一句话概述:全长转录组 = 用长读长测序获得完整mRNA序列(从5'帽到3'polyA),无需拼接即可鉴定所有剪接异构体(isoform)。

核心知识点速查表

维度全长转录组(长读长)传统RNA-seq(短读长)
读长全长(1-10kb)短片段(150bp)
异构体鉴定直接获得完整异构体需要计算拼接
新转录本发现强(直接观察)弱(拼接可能出错)
定量准确性中等
通量较低
融合基因检测直接跨越融合点依赖软件预测
平台PacBio Iso-Seq / ONTIllumina

一、PacBio Iso-Seq流程

# PacBio Iso-Seq(等价于全长cDNA测序)

# 1. CCS生成(从环形测序获得高精度reads)
ccs raw_movie.subreads.bam \           # 原始subreads
    ccs_reads.bam \                    # 输出CCS reads
    --min-rq 0.9                       # 最低质量0.9

# 2. 引物去除和全长识别
isoseq3 tag \                          # 识别5'/3'引物
    ccs_reads.bam \
    flt.bam \
    --design T-12U-16B                 # 引物设计方案

isoseq3 refine \                       # 精修(去除polyA+引物)
    flt.bam \
    primers.fasta \                    # 引物序列
    flnc.bam \                         # 全长非嵌合reads (FLNC)
    --require-polya                    # 要求有polyA尾巴

# 3. 聚类(合并相同转录本)
isoseq3 cluster \                      # 聚类
    flnc.bam \                         # FLNC reads
    clustered.bam \                    # 聚类输出
    --verbose

# 4. 比对到参考基因组
pbmm2 align ref.fa \                   # PacBio比对
    clustered.hq.bam \                 # 高质量聚类
    aligned.bam \
    --preset ISOSEQ \                  # Iso-Seq预设
    --sort

二、ONT全长转录组

# ONT cDNA全长转录组分析

# 1. 碱基识别
dorado basecaller \
    sup \                              # 超精确模型
    pod5_dir/ \
    > cdna_reads.bam

# 2. 比对
minimap2 -ax splice \                  # 剪接感知比对
    -uf \                              # 正链
    --secondary=no \                   # 不输出次要比对
    ref.fa \                           # 参考基因组
    cdna_reads.fq \                    # cDNA reads
    | samtools sort -o aligned.bam

# 3. 转录本发现与定量 —— Bambu
# Bambu是2024-2025年最推荐的长读长转录组工具
# Bambu —— 长读长转录本发现与定量(R包)
library(bambu)                         # 加载bambu

# 运行Bambu
se <- bambu(reads = "aligned.bam",     # 比对BAM
            annotations = "gencode.gtf",# 基因注释
            genome = "ref.fa")          # 参考基因组
# 输出:
# 1. 已知转录本的表达定量
# 2. 新发现的转录本(novel isoforms)
# 3. 融合转录本

# 提取结果
counts <- assay(se, "counts")          # 读段计数
tpm <- assay(se, "CPM")                # TPM标准化值

# 新转录本分类
# Novel in catalog: 使用已知剪接位点的新组合
# Novel not in catalog: 包含全新剪接位点

三、SQANTI3质量评估

# SQANTI3 —— 全长转录本质量评估(金标准工具)

python sqanti3_qc.py \
    isoforms.gtf \                     # 发现的异构体
    gencode.annotation.gtf \           # 参考注释
    ref.fa \                           # 参考基因组
    --cage_peak cage_peaks.bed \       # CAGE数据(5'端验证)
    --polyA_motif_list polyA.txt       # polyA信号列表

# SQANTI3分类:
# FSM:  Full Splice Match (完全匹配已知转录本)
# ISM:  Incomplete Splice Match (部分匹配)
# NIC:  Novel In Catalog (已知剪接位点新组合)
# NNC:  Novel Not in Catalog (全新剪接位点)
# Antisense: 反义转录本
# Intergenic: 基因间区转录本

四、短读长+长读长混合策略

# 混合策略 = 长读长发现异构体 + 短读长精确定量
# 这是2025年最推荐的全长转录组实验设计

# 步骤1:长读长(ONT/PacBio)发现完整异构体
# → 获得高质量异构体注释(GTF文件)

# 步骤2:短读长(Illumina)定量
# → 用长读长发现的GTF作为参考
salmon quant \
    -i salmon_index \                  # 基于长读长异构体建的索引
    -l A \                             # 自动检测文库类型
    -1 short_R1.fq.gz \               # Illumina R1
    -2 short_R2.fq.gz \               # Illumina R2
    -o quant_results                   # 定量结果

# 优势:
# - 长读长:发现能力强(新异构体)
# - 短读长:定量能力强(深度高)
# - 结合两者:最佳精度

五、面试高频问题

  1. Q: 全长转录组和传统RNA-seq的区别? A: 传统RNA-seq把mRNA打碎成短片段再测序,需要算法拼接回去(可能出错)。全长转录组直接读取完整mRNA,异构体鉴定更准确。

  2. Q: 什么是可变剪接异构体? A: 同一个基因通过不同的剪接方式产生不同的mRNA序列→不同的蛋白质。人类~95%的多外显子基因存在可变剪接。

  3. Q: 全长转录组的局限性? A: 通量较低(不适合大规模差异表达分析),成本较高,对低丰度转录本覆盖不足。推荐混合策略弥补。

速查表

# 全长转录组分析工具
PacBio:    isoseq3 → pbmm2 → Bambu/SQANTI3
ONT cDNA:  Dorado → minimap2 → Bambu/SQANTI3
ONT dRNA:  Dorado → minimap2 → FLAIR/Bambu
质量评估:  SQANTI3(异构体分类金标准)
定量:      Bambu, NanoCount, Salmon(混合)
可视化:    IsoformSwitchAnalyzeR, tappAS

# 异构体分类 (SQANTI3)
FSM: Full Splice Match    → 完全匹配已知
ISM: Incomplete Splice Match → 不完整匹配
NIC: Novel In Catalog     → 已知位点新组合
NNC: Novel Not in Catalog → 全新剪接位点