840. 长读长测序前沿应用¶

一句话概述：长读长测序（ONT/PacBio）读长可达数万到数百万碱基，解决了短读长无法解决的结构变异、重复区域、甲基化检测和全长转录本问题。

核心知识点速查表¶

维度	Nanopore (ONT)	PacBio HiFi
读长	超长(可达4Mb)	10-25kb
准确率(单次)	~95-99%(最新)	>99.9%(HiFi)
甲基化检测	直接检测(无需处理)	通过动力学信号
实时测序	是	否
设备大小	掌上(MinION)	台式
通量	中-高	高
成本/Gb	持续下降	中等
RNA直接测序	支持（无需RT）	不支持
主要应用	现场检测、甲基化	精确基因组组装

一、白话理解长读长¶

短读长测序（Illumina）= 把一本书撕成碎片（每片150字），再拼回去
→ 精度高，但遇到重复段落（重复序列）就拼不对了
→ 就像拼图碎片太小，很多地方看起来一样

长读长测序 = 把书撕成大段（每段上万字），再拼回去
→ 每段包含足够多的上下文信息
→ 重复段落两头有不同内容，可以唯一定位
→ 就像大块拼图，很容易找到位置

所以：
- 基因组组装（特别是重复区域）→ 长读长优势巨大
- 结构变异检测（大片段插入/删除/倒位）→ 长读长能直接跨过
- 全长转录本（mRNA从头到尾完整读取）→ 不需要拼接
- DNA甲基化（纳米孔直接读取修饰信号）→ 不需要亚硫酸盐处理

二、ONT纳米孔测序¶

2.1 最新工具链（2025）¶

# Dorado —— ONT新一代碱基识别工具（替代Guppy）
# 2024-2025年ONT官方推荐

# 基础碱基识别
dorado basecaller \                    # 碱基识别
    sup \                              # 超精确模型(sup>hac>fast)
    pod5_dir/ \                        # 输入POD5原始信号
    --device cuda:0 \                  # 使用GPU
    > calls.bam                        # 输出BAM格式

# 同时检测甲基化修饰
dorado basecaller \
    sup \                              # 超精确模型
    pod5_dir/ \
    --modified-bases 5mCG_5hmCG \      # 检测5mC和5hmC修饰
    > calls_with_mods.bam              # 输出含修饰信息的BAM

# 自适应采样（实时选择性测序）
# 在测序过程中实时分析读长
# 如果读长不属于目标区域→反转电压→弹出分子
# 相当于实时"选择性测序"

2.2 ONT直接RNA测序¶

# 直接RNA测序（dRNA-seq）—— 不需要反转录！
# 直接读取天然RNA分子

# 优势：
# 1. 保留RNA修饰信息（m6A等）
# 2. 获得全长转录本
# 3. 直接测量poly(A)尾巴长度
# 4. 无PCR扩增偏差

# 分析流程
minimap2 -ax splice \                  # 剪接感知比对
    -uf \                              # 正向链RNA
    --junc-bed junctions.bed \         # 已知剪接位点
    ref_genome.fa \                    # 参考基因组
    dRNA_reads.fastq \                 # 直接RNA reads
    | samtools sort -o aligned.bam     # 排序BAM

# RNA修饰检测
# 使用xPore或m6Anet检测m6A修饰
python -m xpore diffmod \              # xPore差异修饰分析
    --config config.yml                # 配置文件

三、PacBio HiFi测序¶

# PacBio HiFi —— 高保真长读长（>99.9%准确率）

# CCS(Circular Consensus Sequencing)原理：
# DNA环化 → 聚合酶绕环多次测序 → 多次结果取共识
# 结果：每条读长10-25kb，准确率>99.9%

# HiFi数据分析流程
# 1. 基因组组装（hifiasm —— 当前最优组装器）
hifiasm -o assembly \                  # 输出前缀
    -t 32 \                            # 32线程
    --primary \                        # 输出主要组装
    hifi_reads.fastq.gz                # HiFi reads

# 2. 变异检测
pbmm2 align ref.fa \                   # PacBio比对工具
    hifi_reads.bam \                   # HiFi reads
    aligned.bam \                      # 输出BAM
    --sort \                           # 排序
    --preset CCS                       # HiFi预设

# DeepVariant PacBio模式
run_deepvariant \
    --model_type=PACBIO \              # PacBio模型
    --ref=ref.fa \                     # 参考基因组
    --reads=aligned.bam \              # 比对BAM
    --output_vcf=variants.vcf          # 输出VCF

四、长读长前沿应用¶

4.1 端粒到端粒(T2T)基因组¶

T2T基因组 = 从染色体端粒到端粒的完整序列
→ 2022年：人类T2T-CHM13参考基因组发布
→ 填补了GRCh38中~200Mb的缺失区域
→ 长读长测序使这成为可能

技术要求：
→ ONT超长读长(100kb+) + PacBio HiFi
→ Hi-C辅助组装
→ 手动精修

4.2 宏基因组长读长¶

# 长读长宏基因组 —— 2025热点

# 优势：
# 1. 更完整的MAG（基因组水平）
# 2. 完整操纵子和基因簇
# 3. 直接检测抗性基因的基因组上下文
# 4. 物种级别甚至菌株级别分辨率

# metaFlye组装
flye --nano-raw metagenome.fastq.gz \  # ONT宏基因组reads
    --meta \                           # 宏基因组模式
    --out-dir assembly/ \              # 输出目录
    --threads 32                       # 线程数

# 或使用PacBio HiFi
hifiasm-meta \                         # HiFi宏基因组组装器
    -o meta_asm \                      # 输出前缀
    -t 32 \                            # 线程
    hifi_meta.fastq.gz                 # HiFi reads

五、面试高频问题¶

Q: 长读长和短读长测序的区别？ A: 短读长(Illumina)精度高(>99.9%)但读长短(150bp)，适合变异检测和转录组定量。长读长(ONT/PacBio)读长长(10kb-Mb)，适合基因组组装、结构变异和全长转录本分析。
Q: ONT和PacBio怎么选？ A: 精度优先选PacBio HiFi(>99.9%)，超长读长/现场检测/甲基化直接检测选ONT。很多项目两者结合使用。
Q: 纳米孔测序能直接测RNA吗？ A: 是的。ONT的dRNA-seq可以直接读取天然RNA，无需反转录，能保留RNA修饰信息（如m6A），还能测量poly(A)尾巴长度。

常见报错与解决¶

问题	解决
Dorado GPU内存不足	降低batch_size或使用hac模型替代sup
ONT读长准确率低	确认使用最新basecaller和最新模型
hifiasm组装碎片多	检查测序深度(推荐>30x)，考虑加Hi-C数据
minimap2比对率低	检查参考基因组版本和比对参数

速查表¶

# ONT工具链 (2025)
碱基识别: Dorado (替代Guppy)
比对:     minimap2 -ax map-ont
组装:     Flye / Shasta
变异:     DeepVariant / Clair3
修饰:     modkit (甲基化分析)
RNA:      minimap2 -ax splice + xPore

# PacBio工具链
碱基识别: 仪器自带CCS
比对:     pbmm2 / minimap2 -ax map-hifi
组装:     hifiasm
变异:     DeepVariant --model_type PACBIO
修饰:     pb-CpG-tools

# 选型指南
基因组组装 → PacBio HiFi + ONT超长
结构变异 → 两者都可（ONT更经济）
甲基化 → ONT（直接检测）
RNA全长 → ONT dRNA-seq
现场检测 → ONT MinION