852. 全长转录组分析¶
一句话概述:全长转录组 = 用长读长测序获得完整mRNA序列(从5'帽到3'polyA),无需拼接即可鉴定所有剪接异构体(isoform)。
核心知识点速查表¶
| 维度 | 全长转录组(长读长) | 传统RNA-seq(短读长) |
|---|---|---|
| 读长 | 全长(1-10kb) | 短片段(150bp) |
| 异构体鉴定 | 直接获得完整异构体 | 需要计算拼接 |
| 新转录本发现 | 强(直接观察) | 弱(拼接可能出错) |
| 定量准确性 | 中等 | 高 |
| 通量 | 较低 | 高 |
| 融合基因检测 | 直接跨越融合点 | 依赖软件预测 |
| 平台 | PacBio Iso-Seq / ONT | Illumina |
一、PacBio Iso-Seq流程¶
# PacBio Iso-Seq(等价于全长cDNA测序)
# 1. CCS生成(从环形测序获得高精度reads)
ccs raw_movie.subreads.bam \ # 原始subreads
ccs_reads.bam \ # 输出CCS reads
--min-rq 0.9 # 最低质量0.9
# 2. 引物去除和全长识别
isoseq3 tag \ # 识别5'/3'引物
ccs_reads.bam \
flt.bam \
--design T-12U-16B # 引物设计方案
isoseq3 refine \ # 精修(去除polyA+引物)
flt.bam \
primers.fasta \ # 引物序列
flnc.bam \ # 全长非嵌合reads (FLNC)
--require-polya # 要求有polyA尾巴
# 3. 聚类(合并相同转录本)
isoseq3 cluster \ # 聚类
flnc.bam \ # FLNC reads
clustered.bam \ # 聚类输出
--verbose
# 4. 比对到参考基因组
pbmm2 align ref.fa \ # PacBio比对
clustered.hq.bam \ # 高质量聚类
aligned.bam \
--preset ISOSEQ \ # Iso-Seq预设
--sort
二、ONT全长转录组¶
# ONT cDNA全长转录组分析
# 1. 碱基识别
dorado basecaller \
sup \ # 超精确模型
pod5_dir/ \
> cdna_reads.bam
# 2. 比对
minimap2 -ax splice \ # 剪接感知比对
-uf \ # 正链
--secondary=no \ # 不输出次要比对
ref.fa \ # 参考基因组
cdna_reads.fq \ # cDNA reads
| samtools sort -o aligned.bam
# 3. 转录本发现与定量 —— Bambu
# Bambu是2024-2025年最推荐的长读长转录组工具
# Bambu —— 长读长转录本发现与定量(R包)
library(bambu) # 加载bambu
# 运行Bambu
se <- bambu(reads = "aligned.bam", # 比对BAM
annotations = "gencode.gtf",# 基因注释
genome = "ref.fa") # 参考基因组
# 输出:
# 1. 已知转录本的表达定量
# 2. 新发现的转录本(novel isoforms)
# 3. 融合转录本
# 提取结果
counts <- assay(se, "counts") # 读段计数
tpm <- assay(se, "CPM") # TPM标准化值
# 新转录本分类
# Novel in catalog: 使用已知剪接位点的新组合
# Novel not in catalog: 包含全新剪接位点
三、SQANTI3质量评估¶
# SQANTI3 —— 全长转录本质量评估(金标准工具)
python sqanti3_qc.py \
isoforms.gtf \ # 发现的异构体
gencode.annotation.gtf \ # 参考注释
ref.fa \ # 参考基因组
--cage_peak cage_peaks.bed \ # CAGE数据(5'端验证)
--polyA_motif_list polyA.txt # polyA信号列表
# SQANTI3分类:
# FSM: Full Splice Match (完全匹配已知转录本)
# ISM: Incomplete Splice Match (部分匹配)
# NIC: Novel In Catalog (已知剪接位点新组合)
# NNC: Novel Not in Catalog (全新剪接位点)
# Antisense: 反义转录本
# Intergenic: 基因间区转录本
四、短读长+长读长混合策略¶
# 混合策略 = 长读长发现异构体 + 短读长精确定量
# 这是2025年最推荐的全长转录组实验设计
# 步骤1:长读长(ONT/PacBio)发现完整异构体
# → 获得高质量异构体注释(GTF文件)
# 步骤2:短读长(Illumina)定量
# → 用长读长发现的GTF作为参考
salmon quant \
-i salmon_index \ # 基于长读长异构体建的索引
-l A \ # 自动检测文库类型
-1 short_R1.fq.gz \ # Illumina R1
-2 short_R2.fq.gz \ # Illumina R2
-o quant_results # 定量结果
# 优势:
# - 长读长:发现能力强(新异构体)
# - 短读长:定量能力强(深度高)
# - 结合两者:最佳精度
五、面试高频问题¶
Q: 全长转录组和传统RNA-seq的区别? A: 传统RNA-seq把mRNA打碎成短片段再测序,需要算法拼接回去(可能出错)。全长转录组直接读取完整mRNA,异构体鉴定更准确。
Q: 什么是可变剪接异构体? A: 同一个基因通过不同的剪接方式产生不同的mRNA序列→不同的蛋白质。人类~95%的多外显子基因存在可变剪接。
Q: 全长转录组的局限性? A: 通量较低(不适合大规模差异表达分析),成本较高,对低丰度转录本覆盖不足。推荐混合策略弥补。
速查表¶
# 全长转录组分析工具
PacBio: isoseq3 → pbmm2 → Bambu/SQANTI3
ONT cDNA: Dorado → minimap2 → Bambu/SQANTI3
ONT dRNA: Dorado → minimap2 → FLAIR/Bambu
质量评估: SQANTI3(异构体分类金标准)
定量: Bambu, NanoCount, Salmon(混合)
可视化: IsoformSwitchAnalyzeR, tappAS
# 异构体分类 (SQANTI3)
FSM: Full Splice Match → 完全匹配已知
ISM: Incomplete Splice Match → 不完整匹配
NIC: Novel In Catalog → 已知位点新组合
NNC: Novel Not in Catalog → 全新剪接位点