840. 长读长测序前沿应用¶
一句话概述:长读长测序(ONT/PacBio)读长可达数万到数百万碱基,解决了短读长无法解决的结构变异、重复区域、甲基化检测和全长转录本问题。
核心知识点速查表¶
| 维度 | Nanopore (ONT) | PacBio HiFi |
|---|---|---|
| 读长 | 超长(可达4Mb) | 10-25kb |
| 准确率(单次) | ~95-99%(最新) | >99.9%(HiFi) |
| 甲基化检测 | 直接检测(无需处理) | 通过动力学信号 |
| 实时测序 | 是 | 否 |
| 设备大小 | 掌上(MinION) | 台式 |
| 通量 | 中-高 | 高 |
| 成本/Gb | 持续下降 | 中等 |
| RNA直接测序 | 支持(无需RT) | 不支持 |
| 主要应用 | 现场检测、甲基化 | 精确基因组组装 |
一、白话理解长读长¶
短读长测序(Illumina)= 把一本书撕成碎片(每片150字),再拼回去
→ 精度高,但遇到重复段落(重复序列)就拼不对了
→ 就像拼图碎片太小,很多地方看起来一样
长读长测序 = 把书撕成大段(每段上万字),再拼回去
→ 每段包含足够多的上下文信息
→ 重复段落两头有不同内容,可以唯一定位
→ 就像大块拼图,很容易找到位置
所以:
- 基因组组装(特别是重复区域)→ 长读长优势巨大
- 结构变异检测(大片段插入/删除/倒位)→ 长读长能直接跨过
- 全长转录本(mRNA从头到尾完整读取)→ 不需要拼接
- DNA甲基化(纳米孔直接读取修饰信号)→ 不需要亚硫酸盐处理
二、ONT纳米孔测序¶
2.1 最新工具链(2025)¶
# Dorado —— ONT新一代碱基识别工具(替代Guppy)
# 2024-2025年ONT官方推荐
# 基础碱基识别
dorado basecaller \ # 碱基识别
sup \ # 超精确模型(sup>hac>fast)
pod5_dir/ \ # 输入POD5原始信号
--device cuda:0 \ # 使用GPU
> calls.bam # 输出BAM格式
# 同时检测甲基化修饰
dorado basecaller \
sup \ # 超精确模型
pod5_dir/ \
--modified-bases 5mCG_5hmCG \ # 检测5mC和5hmC修饰
> calls_with_mods.bam # 输出含修饰信息的BAM
# 自适应采样(实时选择性测序)
# 在测序过程中实时分析读长
# 如果读长不属于目标区域→反转电压→弹出分子
# 相当于实时"选择性测序"
2.2 ONT直接RNA测序¶
# 直接RNA测序(dRNA-seq)—— 不需要反转录!
# 直接读取天然RNA分子
# 优势:
# 1. 保留RNA修饰信息(m6A等)
# 2. 获得全长转录本
# 3. 直接测量poly(A)尾巴长度
# 4. 无PCR扩增偏差
# 分析流程
minimap2 -ax splice \ # 剪接感知比对
-uf \ # 正向链RNA
--junc-bed junctions.bed \ # 已知剪接位点
ref_genome.fa \ # 参考基因组
dRNA_reads.fastq \ # 直接RNA reads
| samtools sort -o aligned.bam # 排序BAM
# RNA修饰检测
# 使用xPore或m6Anet检测m6A修饰
python -m xpore diffmod \ # xPore差异修饰分析
--config config.yml # 配置文件
三、PacBio HiFi测序¶
# PacBio HiFi —— 高保真长读长(>99.9%准确率)
# CCS(Circular Consensus Sequencing)原理:
# DNA环化 → 聚合酶绕环多次测序 → 多次结果取共识
# 结果:每条读长10-25kb,准确率>99.9%
# HiFi数据分析流程
# 1. 基因组组装(hifiasm —— 当前最优组装器)
hifiasm -o assembly \ # 输出前缀
-t 32 \ # 32线程
--primary \ # 输出主要组装
hifi_reads.fastq.gz # HiFi reads
# 2. 变异检测
pbmm2 align ref.fa \ # PacBio比对工具
hifi_reads.bam \ # HiFi reads
aligned.bam \ # 输出BAM
--sort \ # 排序
--preset CCS # HiFi预设
# DeepVariant PacBio模式
run_deepvariant \
--model_type=PACBIO \ # PacBio模型
--ref=ref.fa \ # 参考基因组
--reads=aligned.bam \ # 比对BAM
--output_vcf=variants.vcf # 输出VCF
四、长读长前沿应用¶
4.1 端粒到端粒(T2T)基因组¶
T2T基因组 = 从染色体端粒到端粒的完整序列
→ 2022年:人类T2T-CHM13参考基因组发布
→ 填补了GRCh38中~200Mb的缺失区域
→ 长读长测序使这成为可能
技术要求:
→ ONT超长读长(100kb+) + PacBio HiFi
→ Hi-C辅助组装
→ 手动精修
4.2 宏基因组长读长¶
# 长读长宏基因组 —— 2025热点
# 优势:
# 1. 更完整的MAG(基因组水平)
# 2. 完整操纵子和基因簇
# 3. 直接检测抗性基因的基因组上下文
# 4. 物种级别甚至菌株级别分辨率
# metaFlye组装
flye --nano-raw metagenome.fastq.gz \ # ONT宏基因组reads
--meta \ # 宏基因组模式
--out-dir assembly/ \ # 输出目录
--threads 32 # 线程数
# 或使用PacBio HiFi
hifiasm-meta \ # HiFi宏基因组组装器
-o meta_asm \ # 输出前缀
-t 32 \ # 线程
hifi_meta.fastq.gz # HiFi reads
五、面试高频问题¶
Q: 长读长和短读长测序的区别? A: 短读长(Illumina)精度高(>99.9%)但读长短(150bp),适合变异检测和转录组定量。长读长(ONT/PacBio)读长长(10kb-Mb),适合基因组组装、结构变异和全长转录本分析。
Q: ONT和PacBio怎么选? A: 精度优先选PacBio HiFi(>99.9%),超长读长/现场检测/甲基化直接检测选ONT。很多项目两者结合使用。
Q: 纳米孔测序能直接测RNA吗? A: 是的。ONT的dRNA-seq可以直接读取天然RNA,无需反转录,能保留RNA修饰信息(如m6A),还能测量poly(A)尾巴长度。
常见报错与解决¶
| 问题 | 解决 |
|---|---|
| Dorado GPU内存不足 | 降低batch_size或使用hac模型替代sup |
| ONT读长准确率低 | 确认使用最新basecaller和最新模型 |
| hifiasm组装碎片多 | 检查测序深度(推荐>30x),考虑加Hi-C数据 |
| minimap2比对率低 | 检查参考基因组版本和比对参数 |
速查表¶
# ONT工具链 (2025)
碱基识别: Dorado (替代Guppy)
比对: minimap2 -ax map-ont
组装: Flye / Shasta
变异: DeepVariant / Clair3
修饰: modkit (甲基化分析)
RNA: minimap2 -ax splice + xPore
# PacBio工具链
碱基识别: 仪器自带CCS
比对: pbmm2 / minimap2 -ax map-hifi
组装: hifiasm
变异: DeepVariant --model_type PACBIO
修饰: pb-CpG-tools
# 选型指南
基因组组装 → PacBio HiFi + ONT超长
结构变异 → 两者都可(ONT更经济)
甲基化 → ONT(直接检测)
RNA全长 → ONT dRNA-seq
现场检测 → ONT MinION