852. 全长转录组分析¶

一句话概述：全长转录组 = 用长读长测序获得完整mRNA序列（从5'帽到3'polyA），无需拼接即可鉴定所有剪接异构体(isoform)。

核心知识点速查表¶

维度	全长转录组(长读长)	传统RNA-seq(短读长)
读长	全长(1-10kb)	短片段(150bp)
异构体鉴定	直接获得完整异构体	需要计算拼接
新转录本发现	强(直接观察)	弱(拼接可能出错)
定量准确性	中等	高
通量	较低	高
融合基因检测	直接跨越融合点	依赖软件预测
平台	PacBio Iso-Seq / ONT	Illumina

一、PacBio Iso-Seq流程¶

# PacBio Iso-Seq（等价于全长cDNA测序）

# 1. CCS生成（从环形测序获得高精度reads）
ccs raw_movie.subreads.bam \           # 原始subreads
    ccs_reads.bam \                    # 输出CCS reads
    --min-rq 0.9                       # 最低质量0.9

# 2. 引物去除和全长识别
isoseq3 tag \                          # 识别5'/3'引物
    ccs_reads.bam \
    flt.bam \
    --design T-12U-16B                 # 引物设计方案

isoseq3 refine \                       # 精修（去除polyA+引物）
    flt.bam \
    primers.fasta \                    # 引物序列
    flnc.bam \                         # 全长非嵌合reads (FLNC)
    --require-polya                    # 要求有polyA尾巴

# 3. 聚类（合并相同转录本）
isoseq3 cluster \                      # 聚类
    flnc.bam \                         # FLNC reads
    clustered.bam \                    # 聚类输出
    --verbose

# 4. 比对到参考基因组
pbmm2 align ref.fa \                   # PacBio比对
    clustered.hq.bam \                 # 高质量聚类
    aligned.bam \
    --preset ISOSEQ \                  # Iso-Seq预设
    --sort

二、ONT全长转录组¶

# ONT cDNA全长转录组分析

# 1. 碱基识别
dorado basecaller \
    sup \                              # 超精确模型
    pod5_dir/ \
    > cdna_reads.bam

# 2. 比对
minimap2 -ax splice \                  # 剪接感知比对
    -uf \                              # 正链
    --secondary=no \                   # 不输出次要比对
    ref.fa \                           # 参考基因组
    cdna_reads.fq \                    # cDNA reads
    | samtools sort -o aligned.bam

# 3. 转录本发现与定量 —— Bambu
# Bambu是2024-2025年最推荐的长读长转录组工具

# Bambu —— 长读长转录本发现与定量（R包）
library(bambu)                         # 加载bambu

# 运行Bambu
se <- bambu(reads = "aligned.bam",     # 比对BAM
            annotations = "gencode.gtf",# 基因注释
            genome = "ref.fa")          # 参考基因组
# 输出：
# 1. 已知转录本的表达定量
# 2. 新发现的转录本（novel isoforms）
# 3. 融合转录本

# 提取结果
counts <- assay(se, "counts")          # 读段计数
tpm <- assay(se, "CPM")                # TPM标准化值

# 新转录本分类
# Novel in catalog: 使用已知剪接位点的新组合
# Novel not in catalog: 包含全新剪接位点

三、SQANTI3质量评估¶

# SQANTI3 —— 全长转录本质量评估（金标准工具）

python sqanti3_qc.py \
    isoforms.gtf \                     # 发现的异构体
    gencode.annotation.gtf \           # 参考注释
    ref.fa \                           # 参考基因组
    --cage_peak cage_peaks.bed \       # CAGE数据(5'端验证)
    --polyA_motif_list polyA.txt       # polyA信号列表

# SQANTI3分类：
# FSM:  Full Splice Match (完全匹配已知转录本)
# ISM:  Incomplete Splice Match (部分匹配)
# NIC:  Novel In Catalog (已知剪接位点新组合)
# NNC:  Novel Not in Catalog (全新剪接位点)
# Antisense: 反义转录本
# Intergenic: 基因间区转录本

四、短读长+长读长混合策略¶

# 混合策略 = 长读长发现异构体 + 短读长精确定量
# 这是2025年最推荐的全长转录组实验设计

# 步骤1：长读长(ONT/PacBio)发现完整异构体
# → 获得高质量异构体注释(GTF文件)

# 步骤2：短读长(Illumina)定量
# → 用长读长发现的GTF作为参考
salmon quant \
    -i salmon_index \                  # 基于长读长异构体建的索引
    -l A \                             # 自动检测文库类型
    -1 short_R1.fq.gz \               # Illumina R1
    -2 short_R2.fq.gz \               # Illumina R2
    -o quant_results                   # 定量结果

# 优势：
# - 长读长：发现能力强（新异构体）
# - 短读长：定量能力强（深度高）
# - 结合两者：最佳精度

五、面试高频问题¶

Q: 全长转录组和传统RNA-seq的区别？ A: 传统RNA-seq把mRNA打碎成短片段再测序，需要算法拼接回去（可能出错）。全长转录组直接读取完整mRNA，异构体鉴定更准确。
Q: 什么是可变剪接异构体？ A: 同一个基因通过不同的剪接方式产生不同的mRNA序列→不同的蛋白质。人类~95%的多外显子基因存在可变剪接。
Q: 全长转录组的局限性？ A: 通量较低（不适合大规模差异表达分析），成本较高，对低丰度转录本覆盖不足。推荐混合策略弥补。

速查表¶

# 全长转录组分析工具
PacBio:    isoseq3 → pbmm2 → Bambu/SQANTI3
ONT cDNA:  Dorado → minimap2 → Bambu/SQANTI3
ONT dRNA:  Dorado → minimap2 → FLAIR/Bambu
质量评估:  SQANTI3（异构体分类金标准）
定量:      Bambu, NanoCount, Salmon(混合)
可视化:    IsoformSwitchAnalyzeR, tappAS

# 异构体分类 (SQANTI3)
FSM: Full Splice Match    → 完全匹配已知
ISM: Incomplete Splice Match → 不完整匹配
NIC: Novel In Catalog     → 已知位点新组合
NNC: Novel Not in Catalog → 全新剪接位点