跳转至

840. 长读长测序前沿应用

一句话概述:长读长测序(ONT/PacBio)读长可达数万到数百万碱基,解决了短读长无法解决的结构变异、重复区域、甲基化检测和全长转录本问题。

核心知识点速查表

维度Nanopore (ONT)PacBio HiFi
读长超长(可达4Mb)10-25kb
准确率(单次)~95-99%(最新)>99.9%(HiFi)
甲基化检测直接检测(无需处理)通过动力学信号
实时测序
设备大小掌上(MinION)台式
通量中-高
成本/Gb持续下降中等
RNA直接测序支持(无需RT)不支持
主要应用现场检测、甲基化精确基因组组装

一、白话理解长读长

短读长测序(Illumina)= 把一本书撕成碎片(每片150字),再拼回去
→ 精度高,但遇到重复段落(重复序列)就拼不对了
→ 就像拼图碎片太小,很多地方看起来一样

长读长测序 = 把书撕成大段(每段上万字),再拼回去
→ 每段包含足够多的上下文信息
→ 重复段落两头有不同内容,可以唯一定位
→ 就像大块拼图,很容易找到位置

所以:
- 基因组组装(特别是重复区域)→ 长读长优势巨大
- 结构变异检测(大片段插入/删除/倒位)→ 长读长能直接跨过
- 全长转录本(mRNA从头到尾完整读取)→ 不需要拼接
- DNA甲基化(纳米孔直接读取修饰信号)→ 不需要亚硫酸盐处理

二、ONT纳米孔测序

2.1 最新工具链(2025)

# Dorado —— ONT新一代碱基识别工具(替代Guppy)
# 2024-2025年ONT官方推荐

# 基础碱基识别
dorado basecaller \                    # 碱基识别
    sup \                              # 超精确模型(sup>hac>fast)
    pod5_dir/ \                        # 输入POD5原始信号
    --device cuda:0 \                  # 使用GPU
    > calls.bam                        # 输出BAM格式

# 同时检测甲基化修饰
dorado basecaller \
    sup \                              # 超精确模型
    pod5_dir/ \
    --modified-bases 5mCG_5hmCG \      # 检测5mC和5hmC修饰
    > calls_with_mods.bam              # 输出含修饰信息的BAM

# 自适应采样(实时选择性测序)
# 在测序过程中实时分析读长
# 如果读长不属于目标区域→反转电压→弹出分子
# 相当于实时"选择性测序"

2.2 ONT直接RNA测序

# 直接RNA测序(dRNA-seq)—— 不需要反转录!
# 直接读取天然RNA分子

# 优势:
# 1. 保留RNA修饰信息(m6A等)
# 2. 获得全长转录本
# 3. 直接测量poly(A)尾巴长度
# 4. 无PCR扩增偏差

# 分析流程
minimap2 -ax splice \                  # 剪接感知比对
    -uf \                              # 正向链RNA
    --junc-bed junctions.bed \         # 已知剪接位点
    ref_genome.fa \                    # 参考基因组
    dRNA_reads.fastq \                 # 直接RNA reads
    | samtools sort -o aligned.bam     # 排序BAM

# RNA修饰检测
# 使用xPore或m6Anet检测m6A修饰
python -m xpore diffmod \              # xPore差异修饰分析
    --config config.yml                # 配置文件

三、PacBio HiFi测序

# PacBio HiFi —— 高保真长读长(>99.9%准确率)

# CCS(Circular Consensus Sequencing)原理:
# DNA环化 → 聚合酶绕环多次测序 → 多次结果取共识
# 结果:每条读长10-25kb,准确率>99.9%

# HiFi数据分析流程
# 1. 基因组组装(hifiasm —— 当前最优组装器)
hifiasm -o assembly \                  # 输出前缀
    -t 32 \                            # 32线程
    --primary \                        # 输出主要组装
    hifi_reads.fastq.gz                # HiFi reads

# 2. 变异检测
pbmm2 align ref.fa \                   # PacBio比对工具
    hifi_reads.bam \                   # HiFi reads
    aligned.bam \                      # 输出BAM
    --sort \                           # 排序
    --preset CCS                       # HiFi预设

# DeepVariant PacBio模式
run_deepvariant \
    --model_type=PACBIO \              # PacBio模型
    --ref=ref.fa \                     # 参考基因组
    --reads=aligned.bam \              # 比对BAM
    --output_vcf=variants.vcf          # 输出VCF

四、长读长前沿应用

4.1 端粒到端粒(T2T)基因组

T2T基因组 = 从染色体端粒到端粒的完整序列
→ 2022年:人类T2T-CHM13参考基因组发布
→ 填补了GRCh38中~200Mb的缺失区域
→ 长读长测序使这成为可能

技术要求:
→ ONT超长读长(100kb+) + PacBio HiFi
→ Hi-C辅助组装
→ 手动精修

4.2 宏基因组长读长

# 长读长宏基因组 —— 2025热点

# 优势:
# 1. 更完整的MAG(基因组水平)
# 2. 完整操纵子和基因簇
# 3. 直接检测抗性基因的基因组上下文
# 4. 物种级别甚至菌株级别分辨率

# metaFlye组装
flye --nano-raw metagenome.fastq.gz \  # ONT宏基因组reads
    --meta \                           # 宏基因组模式
    --out-dir assembly/ \              # 输出目录
    --threads 32                       # 线程数

# 或使用PacBio HiFi
hifiasm-meta \                         # HiFi宏基因组组装器
    -o meta_asm \                      # 输出前缀
    -t 32 \                            # 线程
    hifi_meta.fastq.gz                 # HiFi reads

五、面试高频问题

  1. Q: 长读长和短读长测序的区别? A: 短读长(Illumina)精度高(>99.9%)但读长短(150bp),适合变异检测和转录组定量。长读长(ONT/PacBio)读长长(10kb-Mb),适合基因组组装、结构变异和全长转录本分析。

  2. Q: ONT和PacBio怎么选? A: 精度优先选PacBio HiFi(>99.9%),超长读长/现场检测/甲基化直接检测选ONT。很多项目两者结合使用。

  3. Q: 纳米孔测序能直接测RNA吗? A: 是的。ONT的dRNA-seq可以直接读取天然RNA,无需反转录,能保留RNA修饰信息(如m6A),还能测量poly(A)尾巴长度。

常见报错与解决

问题解决
Dorado GPU内存不足降低batch_size或使用hac模型替代sup
ONT读长准确率低确认使用最新basecaller和最新模型
hifiasm组装碎片多检查测序深度(推荐>30x),考虑加Hi-C数据
minimap2比对率低检查参考基因组版本和比对参数

速查表

# ONT工具链 (2025)
碱基识别: Dorado (替代Guppy)
比对:     minimap2 -ax map-ont
组装:     Flye / Shasta
变异:     DeepVariant / Clair3
修饰:     modkit (甲基化分析)
RNA:      minimap2 -ax splice + xPore

# PacBio工具链
碱基识别: 仪器自带CCS
比对:     pbmm2 / minimap2 -ax map-hifi
组装:     hifiasm
变异:     DeepVariant --model_type PACBIO
修饰:     pb-CpG-tools

# 选型指南
基因组组装 → PacBio HiFi + ONT超长
结构变异 → 两者都可(ONT更经济)
甲基化 → ONT(直接检测)
RNA全长 → ONT dRNA-seq
现场检测 → ONT MinION