长读长测序数据分析（Nanopore / PacBio）¶

一句话说明¶

本篇聚焦长读长测序数据的分析流程和工具（Nanopore 和 PacBio HiFi），从原始信号到变异检测、基因组组装、结构变异和宏基因组应用——13篇讲"测序是怎么产生数据的"，这篇讲"拿到数据后怎么分析"。

长读长数据的核心特点¶

特征	Nanopore（Oxford Nanopore）	PacBio HiFi（Revio/Sequel IIe）
典型读长	10-100 kb，超长可达 >1 Mb	10-25 kb（HiFi模式）
原始错误率	~5%（R10.4.1 最新 raw accuracy ~95%）	<1%（HiFi 是 CCS 多次读取纠错后）
错误类型	以 indel 为主（插入/缺失），尤其在同聚物区域(homopolymer)	随机替换为主，无系统性偏差
数据产出	PromethION 单次 ~100-300 Gb	Revio 单次 ~90 Gb HiFi 数据
直接RNA测序	支持（可检测 RNA 修饰）	不支持
实时分析	支持（adaptive sampling 选择性测序）	不支持

白话理解错误类型¶

Nanopore 的 indel 错误：就像打字时手抖多敲了一个字或漏了一个字，在连续相同碱基的地方（比如 AAAAA）特别容易数错有几个 A
PacBio HiFi 的低错误率：一条 DNA 绕成环形反复读 10-30 次，取共识序列（CCS），所以几乎没有系统性错误

Nanopore 数据分析完整流程¶

原始电信号（POD5/FAST5）
   ↓ Basecalling（Dorado）
FASTQ/BAM
   ↓ 质控（NanoPlot / NanoQC）
   ↓ 比对（minimap2）
sorted BAM
   ↓ 变异检测（Clair3 / PEPPER-DeepVariant）
   ↓ 结构变异（Sniffles2 / SVIM）
   ↓ 基因组组装（Flye → polish with Medaka）
   ↓ 甲基化检测（Dorado 内置 / modkit）

Step 1: Basecalling — Dorado¶

Dorado 是 ONT 官方最新的 basecaller，已取代 Guppy（Guppy 不再更新）。最新版本：v1.4.0（2026年2月发布）

# ============================================================
# Dorado basecalling：把电信号（POD5格式）转换为碱基序列
# ============================================================

# 安装 Dorado（官方提供预编译二进制，需要 GPU）
# 下载地址: https://github.com/nanoporetech/dorado/releases

# 查看可用模型（不同flowcell/化学版本用不同模型）
dorado download --list              # 列出所有可下载的模型

# 下载模型（以 R10.4.1 flowcell + 最高精度模型为例）
dorado download --model dna_r10.4.1_e8.2_400bps_sup@v5.0.0
# sup = super accuracy 最高精度模型（最慢但最准）
# hac = high accuracy 高精度模型（速度和准确率平衡）
# fast = 快速模型（最快但准确率稍低）

# 执行 basecalling
dorado basecaller \
    dna_r10.4.1_e8.2_400bps_sup@v5.0.0 \   # 指定模型
    ./pod5_pass/ \                           # 输入：POD5 文件目录
    --emit-fastq \                           # 输出 FASTQ 格式（默认输出 BAM）
    --device cuda:0 \                        # 使用第一块 GPU
    --min-qscore 9 \                         # 最低质量分数过滤（Q9 ≈ 87%准确率）
    > basecalled.fastq                       # 输出文件

# 如果同时需要甲基化信息（5mC 和 6mA）：
dorado basecaller \
    dna_r10.4.1_e8.2_400bps_sup@v5.0.0 \
    ./pod5_pass/ \
    --modified-bases 5mCG_5hmCG \            # 检测 CpG 位点的 5mC 和 5hmC 修饰
    --device cuda:all \                      # 使用所有 GPU
    --reference ref.fasta \                  # 直接比对到参考基因组
    > aligned_with_mods.bam                  # 输出含甲基化标签的 BAM

Step 2: 质控 — NanoPlot¶

# ============================================================
# NanoPlot：长读长专用质控工具，生成读长分布、质量分布等图表
# ============================================================

# 安装
pip install NanoPlot  # 或 conda install -c bioconda nanoplot

# 从 FASTQ 文件生成质控报告
NanoPlot \
    --fastq basecalled.fastq \    # 输入 FASTQ 文件
    --outdir nanoplot_qc/ \       # 输出目录
    --threads 8 \                 # 使用 8 个线程
    --plots hex dot \             # 生成的图表类型
    --title "Sample_01_QC" \      # 报告标题
    --loglength                   # 用 log 刻度展示读长（长读长数据分布跨度大）

# 关键质控指标解读：
# - Mean read length: 平均读长（期望 >10kb）
# - N50: 把所有读长从长到短排列，累积到总碱基数 50% 时的读长
#         （N50 越大说明长 reads 越多，组装越有利）
# - Mean read quality: 平均质量（Q10=90%准确率, Q20=99%准确率）
# - Number of reads: 总读数

# 从 BAM 文件生成质控（如果 Dorado 直接输出 BAM）
NanoPlot --bam aligned.bam --outdir nanoplot_bam_qc/ --threads 8

Step 3: 比对 — minimap2¶

# ============================================================
# minimap2：长读长比对的标准工具（速度快，支持各种长读长数据）
# ============================================================

# 安装
conda install -c bioconda minimap2 samtools

# Nanopore 数据比对到参考基因组
minimap2 \
    -ax map-ont \              # -a: 输出 SAM 格式; -x map-ont: Nanopore 预设参数
    -t 16 \                    # 使用 16 个线程
    --secondary=no \           # 不输出次优比对（减少冗余）
    --MD \                     # 输出 MD tag（方便后续变异检测）
    ref.fasta \                # 参考基因组
    basecalled.fastq \         # 输入 reads
    | samtools sort \          # 管道：排序
    -@ 8 \                     # 排序用 8 个线程
    -o aligned_sorted.bam      # 输出排序后的 BAM

# 建立索引（后续查看/变异检测需要）
samtools index aligned_sorted.bam

# minimap2 的 -x 预设参数说明：
# map-ont   → Nanopore 基因组比对
# map-hifi  → PacBio HiFi 基因组比对
# map-pb    → PacBio CLR（旧版连续长读长）比对
# splice    → 长读长转录组比对（RNA-seq，考虑剪接）
# asm5      → 基因组-基因组比对（序列差异 <5%）

Step 4: 变异检测 — Clair3¶

Clair3 是基于深度学习的变异检测工具，专门针对长读长数据优化。最新版本：v2.0.1（2026年4月发布）

# ============================================================
# Clair3：长读长 SNP/Indel 检测（深度学习模型）
# ============================================================

# 推荐用 Docker/Singularity 运行（依赖复杂）
# Docker 方式：
docker run -it \
    -v "$(pwd):/input" \                    # 挂载当前目录
    -v "$(pwd)/output:/output" \            # 输出目录
    hkubal/clair3:latest \
    /opt/bin/run_clair3.sh \
    --bam_fn=/input/aligned_sorted.bam \    # 输入 BAM
    --ref_fn=/input/ref.fasta \             # 参考基因组
    --output=/output/ \                     # 输出目录
    --threads=16 \                          # 线程数
    --platform="ont" \                      # 平台：ont / hifi / ilmn
    --model_path="/opt/models/ont" \        # 模型路径（ont专用模型）
    --sample_name="sample01"                # 样本名

# 输出文件说明：
# merge_output.vcf.gz      → 合并的变异结果（SNP + Indel）
# pileup.vcf.gz            → pileup 阶段初筛结果
# full_alignment.vcf.gz    → 全比对阶段精细结果

# Conda 方式安装（替代 Docker）：
# conda create -n clair3 -c bioconda clair3
# run_clair3.sh --bam_fn ... --ref_fn ... --platform ont --output ...

Step 5: 基因组组装 — Flye + Medaka Polish¶

Flye 是长读长 de novo 组装的主流工具。最新版本：2.9.6（2025年5月发布）

# ============================================================
# Flye：长读长 de novo 基因组组装
# ============================================================

# 安装
conda install -c bioconda flye

# Nanopore 数据组装
flye \
    --nano-hq basecalled.fastq \    # --nano-hq: 高质量 Nanopore reads（Q20+）
                                    # --nano-raw: 旧版低质量 reads
                                    # --pacbio-hifi: PacBio HiFi reads
    --out-dir flye_assembly/ \      # 输出目录
    --threads 32 \                  # 线程数
    --genome-size 5m \              # 预估基因组大小（5m=5Mb，细菌基因组）
                                    # 人类基因组用 3g
    --iterations 2                  # polishing 迭代次数

# Flye 输出文件说明：
# assembly.fasta           → 组装结果
# assembly_graph.gfa       → 组装图（可用 Bandage 可视化）
# assembly_info.txt        → 各 contig 的统计信息

# ============================================================
# Medaka：Nanopore 专用 polishing 工具（ONT官方，基于神经网络）
# ============================================================

# 安装
# pip install medaka  # 或 conda install -c bioconda medaka

# 用原始 reads 对组装结果进行 polish（纠错）
medaka_polish \
    -i basecalled.fastq \           # 原始 reads
    -d flye_assembly/assembly.fasta \  # 待 polish 的组装结果
    -o medaka_polished/ \           # 输出目录
    -t 16 \                         # 线程数
    -m r1041_e82_400bps_sup_v5.0.0  # 模型（需匹配 basecalling 模型）

# Polish 后的结果：medaka_polished/consensus.fasta
# 白话解释：组装 = 先拼个大概框架，polish = 逐字校对纠错

PacBio HiFi 数据分析流程¶

原始 Subreads（BAM）
   ↓ CCS 生成（pbccs / on-instrument）
HiFi Reads（BAM/FASTQ, Q20+）
   ↓ 比对（minimap2 -x map-hifi / pbmm2）
sorted BAM
   ↓ 变异检测（DeepVariant）
   ↓ 结构变异（pbsv / Sniffles2）
   ↓ 基因组组装（hifiasm）

Step 1: CCS 生成（HiFi Reads）¶

# ============================================================
# CCS（Circular Consensus Sequencing）：从 subreads 生成 HiFi reads
# 现在大多数情况 Revio 仪器已经在机上自动完成 CCS
# 如果需要手动生成：
# ============================================================

# 安装 pbccs（PacBio SMRT Link 套件的一部分）
# conda install -c bioconda pbccs

# 从 subreads 生成 HiFi reads
ccs \
    subreads.bam \              # 输入：原始 subreads
    hifi_reads.bam \            # 输出：HiFi reads
    --min-rq 0.99 \             # 最低读取质量（0.99 = Q20）
    --min-passes 3 \            # 最少环形读取次数（越多越准，但读长越短）
    --num-threads 32            # 线程数

# 白话解释 CCS 原理：
# DNA 分子被连成一个环，测序仪绕着这个环反复读
# 读 10 圈产生 10 条 subreads，对同一位置取多数表决
# 就像让 10 个人各抄一遍课文，对比取共识 → 极大降低错误率

# 转换为 FASTQ（如果后续工具需要）
samtools fastq hifi_reads.bam > hifi_reads.fastq

Step 2: 比对 — minimap2 / pbmm2¶

# ============================================================
# PacBio HiFi 比对（两种工具可选）
# ============================================================

# 方法一：minimap2（通用，推荐）
minimap2 \
    -ax map-hifi \             # HiFi 专用预设
    -t 16 \
    --secondary=no \
    ref.fasta \
    hifi_reads.fastq \
    | samtools sort -@ 8 -o hifi_aligned.bam

samtools index hifi_aligned.bam

# 方法二：pbmm2（PacBio 官方封装的 minimap2）
# pbmm2 align ref.fasta hifi_reads.bam hifi_aligned.bam \
#     --sort --preset HiFi --num-threads 16

Step 3: 变异检测 — DeepVariant¶

DeepVariant 是 Google 开发的深度学习变异检测工具，HiFi 模式表现极佳。最新版本：v1.10.0（2026年3月发布）

# ============================================================
# DeepVariant：PacBio HiFi 变异检测（Google 深度学习模型）
# ============================================================

# 推荐 Docker 方式运行
docker run \
    -v "$(pwd):/input" \
    -v "$(pwd)/output:/output" \
    google/deepvariant:1.10.0 \
    /opt/deepvariant/bin/run_deepvariant \
    --model_type=PACBIO \                   # 模型类型：PACBIO / ONT / WGS(Illumina)
    --ref=/input/ref.fasta \                # 参考基因组
    --reads=/input/hifi_aligned.bam \       # 输入 BAM
    --output_vcf=/output/deepvariant.vcf.gz \  # 输出 VCF
    --output_gvcf=/output/deepvariant.g.vcf.gz \ # 输出 gVCF（含非变异位点）
    --num_shards=16                         # 并行数（≈线程数）

# DeepVariant 在 PacBio HiFi 数据上的 SNP F1-score 通常 >99.7%
# 这比传统工具（如 GATK HaplotypeCaller）在长读长数据上表现好很多

Step 4: 基因组组装 — hifiasm¶

hifiasm 是目前 HiFi 数据组装的首选工具，速度快、结果好。最新版本：0.25.0 (r726)（2025年3月发布）新增功能：ONT 组装的低质量 reads 内部过滤（--rl-cut, --sc-cut）

# ============================================================
# hifiasm：PacBio HiFi 基因组组装（也支持 ONT 超长reads辅助）
# ============================================================

# 安装
conda install -c bioconda hifiasm

# 基本 HiFi 组装
hifiasm \
    -o sample_asm \            # 输出前缀
    -t 32 \                    # 线程数
    hifi_reads.fastq.gz        # 输入 HiFi reads

# 输出文件（GFA 格式，需转换为 FASTA）：
# sample_asm.bp.p_ctg.gfa  → primary assembly（主要组装）
# sample_asm.bp.a_ctg.gfa  → alternate assembly（等位基因版本）

# GFA 转 FASTA
awk '/^S/{print ">"$2;print $3}' sample_asm.bp.p_ctg.gfa > primary_assembly.fasta

# HiFi + ONT 超长 reads 混合组装（获得更好的连续性）
hifiasm \
    -o hybrid_asm \
    -t 32 \
    --ul ont_ultralong.fastq.gz \   # ONT 超长 reads（>50kb）辅助
    hifi_reads.fastq.gz

# HiFi + Hi-C 数据组装（获得染色体级别分型）
hifiasm \
    -o hic_asm \
    -t 32 \
    --h1 hic_R1.fastq.gz \    # Hi-C 正向 reads
    --h2 hic_R2.fastq.gz \    # Hi-C 反向 reads
    hifi_reads.fastq.gz

# hifiasm 特点：
# - 不需要先 polish（HiFi 数据本身就很准）
# - 可以输出 phased（分型的）组装结果
# - 人类基因组组装约 1-2 小时（32线程）

结构变异检测（SV Detection）¶

结构变异（Structural Variants, SV）= 长度 ≥50bp 的基因组变异包括：缺失(DEL)、插入(INS)、倒位(INV)、重复(DUP)、易位(TRA/BND) 长读长数据比短读长在 SV 检测上有巨大优势

Sniffles2¶

最新版本：v2.7.5（2026年4月发布）

# ============================================================
# Sniffles2：长读长结构变异检测（最主流工具）
# ============================================================

# 安装
conda install -c bioconda sniffles

# 单样本 SV 检测
sniffles \
    --input aligned_sorted.bam \    # 输入排序后的 BAM
    --vcf sv_calls.vcf.gz \         # 输出 VCF
    --reference ref.fasta \         # 参考基因组
    --threads 8 \                   # 线程数
    --minsvlen 50 \                 # 最小 SV 长度（默认 50bp）
    --minsupport auto               # 最小支持 reads 数（auto=自动根据覆盖度决定）

# 多样本联合分析（population-level SV calling）
# 第一步：每个样本先生成 snf 文件
sniffles --input sample1.bam --snf sample1.snf --reference ref.fasta
sniffles --input sample2.bam --snf sample2.snf --reference ref.fasta

# 第二步：合并多个样本
sniffles --input sample1.snf sample2.snf \
    --vcf population_sv.vcf.gz \
    --reference ref.fasta

SVIM¶

# ============================================================
# SVIM：另一个长读长 SV 检测工具（特点：灵敏度高）
# ============================================================

# 安装
conda install -c bioconda svim

# SV 检测
svim alignment \
    svim_output/ \                  # 输出目录
    aligned_sorted.bam \            # 输入 BAM
    ref.fasta \                     # 参考基因组
    --min_sv_size 50 \              # 最小 SV 长度
    --minimum_depth 5               # 最小覆盖深度

# 输出：svim_output/variants.vcf（需按质量分过滤）
# 过滤建议：QUAL >= 10 用于 Nanopore，QUAL >= 15 用于 HiFi
bcftools view -i 'QUAL>=10' svim_output/variants.vcf > svim_filtered.vcf

直接 RNA 测序与修饰检测¶

Nanopore 独有能力：直接测 RNA 分子（不需要反转录），可以检测 RNA 修饰

# ============================================================
# Nanopore 直接 RNA 测序分析流程
# ============================================================

# Basecalling（RNA 模式）
dorado basecaller \
    rna004_130bps_sup@v5.1.0 \      # RNA 测序专用模型
    ./pod5_rna/ \                    # RNA 测序产生的 POD5 文件
    --modified-bases m6A inosine \   # 检测 m6A 和肌苷修饰
    --reference transcriptome.fasta \
    > rna_aligned.bam

# RNA 比对（如果不在 basecalling 时比对）
minimap2 \
    -ax splice \                    # splice 模式：考虑 RNA 剪接
    -uf \                           # -u f: 强制正链比对（RNA 有方向性）
    --junc-bed known_junctions.bed \ # 已知剪接位点（可选，提高比对准确率）
    ref.fasta \
    rna_reads.fastq \
    | samtools sort -o rna_sorted.bam

# ============================================================
# modkit：ONT 官方修饰碱基分析工具
# ============================================================

# 从 BAM 文件提取甲基化/修饰信息
modkit pileup \
    rna_aligned.bam \               # 含修饰标签的 BAM
    m6A_pileup.bed \                # 输出 BED 格式
    --ref ref.fasta \               # 参考基因组
    --mod-thresholds m:0.75 \       # 修饰判定阈值（概率 >0.75 认为有修饰）
    --threads 8

# 输出 BED 文件包含每个位置的：
# - 覆盖深度
# - 修饰比例（methylation frequency）
# - 统计置信度

长读长宏基因组分析（与项目关联）¶

示例项目是 2 型糖尿病肠道菌群宏基因组分析。当前主流是二代测序（Illumina），但长读长宏基因组正在兴起。

长读长 vs 短读长宏基因组对比¶

方面	短读长（Illumina）	长读长（Nanopore/HiFi）
组装连续性	碎片化（N50 ~5-50kb）	可获得完整基因组（MAG质量高）
物种分辨率	种水平有时困难	可达株(strain)水平
基因完整性	基因可能被打断	完整操纵子/基因簇
移动元件检测	困难（重复区域）	容易（reads 跨越整个元件）
成本	较低	较高
数据量需求	10-50 Gb/样本	20-100 Gb/样本

长读长宏基因组分析命令¶

# ============================================================
# 长读长宏基因组组装（以 Nanopore 数据为例）
# ============================================================

# 方法一：Flye 宏基因组模式
flye \
    --nano-hq metagenome_reads.fastq \
    --meta \                        # 关键参数：启用宏基因组模式
    --out-dir meta_assembly/ \      #（处理不均匀覆盖度、多物种混合）
    --threads 64 \
    --genome-size 500m              # 宏基因组预估总大小

# 方法二：metaFlye 直接调用（和上面等价，--meta 即是 metaFlye）

# ============================================================
# 宏基因组 Binning：从组装结果中分离各物种的基因组（MAG）
# ============================================================

# 长读长 MAG 质量通常更高，因为 contig 更长、更连续
# 工具：MetaBAT2 / SemiBin2

# 先计算覆盖度
minimap2 -ax map-ont -t 16 meta_assembly/assembly.fasta \
    metagenome_reads.fastq | samtools sort -o meta_mapped.bam
samtools index meta_mapped.bam

# MetaBAT2 binning
jgi_summarize_bam_contig_depths --outputDepth depth.txt meta_mapped.bam
metabat2 \
    -i meta_assembly/assembly.fasta \   # 组装结果
    -a depth.txt \                      # 覆盖度文件
    -o bins/bin \                       # 输出前缀
    -m 1500 \                           # 最小 contig 长度
    -t 16

# MAG 质量评估
checkm2 predict \
    --input bins/ \                     # binning 结果目录
    --output-directory checkm2_out/ \
    --threads 16

# 面试关联：如果被问"该项目如果用长读长测序会有什么优势"
# → 可以获得完整的微生物基因组（高质量 MAG），
#   更准确地识别 T2D 相关菌株的功能基因和毒力因子

Nanopore vs PacBio 数据分析对比总表¶

分析步骤	Nanopore 工具	PacBio HiFi 工具	差异说明
信号→序列	Dorado (basecalling)	pbccs (CCS生成)	Nanopore 需 GPU，PacBio 机上完成
质控	NanoPlot	Qualimap / NanoPlot	通用
比对	minimap2 `-x map-ont`	minimap2 `-x map-hifi`	参数不同，HiFi更精确
SNP/Indel	Clair3	DeepVariant (PACBIO)	两者都是深度学习；HiFi精度更高
结构变异	Sniffles2 / SVIM	pbsv / Sniffles2	Sniffles2 通用；pbsv 是 PacBio 官方
组装	Flye + Medaka polish	hifiasm (无需polish)	HiFi 组装质量直接很高
甲基化	Dorado + modkit	pbcpg_tools / jasmine	Nanopore 无需额外实验
组装后 polish	必须（Medaka/Racon）	通常不需要	HiFi 错误率已很低
运行环境	需 GPU（basecalling）	CPU 即可	Dorado 没有 GPU 会很慢

面试怎么答（5 道高频题）¶

Q1: Nanopore 和 PacBio 数据分析流程的核心区别是什么？¶

参考答案：

核心区别在于数据质量决定了分析策略： - Nanopore 原始错误率 ~5%（以 indel 为主），所以需要 basecalling 优化（用 sup 模型）、组装后需要 polishing（Medaka）、变异检测需要专门针对 indel 错误训练的模型（Clair3） - PacBio HiFi 错误率 <1%（CCS 多次读取纠错），数据质量接近 Illumina，组装可以直接用 hifiasm 不需 polish，变异检测用 DeepVariant 就能达到很高精度

另外 Nanopore 的 basecalling 是计算瓶颈（需要 GPU），而 PacBio 在仪器上就完成了 CCS。

Q2: 为什么长读长数据对结构变异检测特别有优势？¶

参考答案：

结构变异（SV）通常长 50bp - 数 Mb，很多 SV 的断裂点位于重复序列中。短读长（150bp）无法跨越这些重复区域，导致： 1. 比对不唯一（multi-mapping） 2. 断裂点无法精确定位 3. 大的插入序列完全检测不到（短 reads 不含插入的序列）

长读长（10-100kb）可以直接跨越 SV 两端的断裂点，一条 read 就能完整覆盖变异区域，所以可以精确识别 SV 类型和序列。研究表明，长读长数据比短读长多检测出 2-3 倍的 SV。

Q3: hifiasm 组装为什么不需要 polish？¶

参考答案：

因为 HiFi reads 本身就是通过 CCS 产生的高质量数据（Q20+，准确率 >99%）。CCS 过程已经相当于"自带 polish"——每条 read 是同一分子多次读取的共识序列。所以 hifiasm 组装出的 contig 的碱基准确率已经很高（QV50+），不需要额外的 polish 步骤。

相比之下，Nanopore 原始 reads 错误率较高，组装后的 consensus 仍会有系统性 indel 错误（特别是 homopolymer 区域），所以必须用 Medaka 等工具进行 polish。

Q4: 该宏基因组项目如果改用长读长测序，分析流程会有什么变化？¶

参考答案：

该项目用 Illumina 短读长分析 T2D 患者肠道菌群。如果改用长读长：

流程变化： 1. 质控：FastQC → NanoPlot 2. 组装：MEGAHIT/metaSPAdes → metaFlye（flye --meta） 3. Binning 仍用 MetaBAT2/SemiBin2，但因为 contig 更长、更连续，MAG 质量更高 4. 物种分类：可以直接用长 reads 比对分类（minimap2 + GTDB），不再受限于短片段

主要优势： - 获得更完整的 MAG（可能达到完整闭环基因组） - 可以识别到菌株水平的差异 - 能完整识别抗性基因簇、移动元件（质粒、噬菌体） - 基因功能注释更准确（完整操纵子结构）

权衡：成本更高，单样本需要更多数据量，目前多样本比较研究中 Illumina 仍是主流。

Q5: Dorado 的不同模型（fast/hac/sup）怎么选？¶

参考答案：

三种模型代表速度-准确率的权衡： - fast：速度最快（~实时），准确率最低（~raw accuracy 96%），适合实时监控、adaptive sampling 选择性测序 - hac (high accuracy)：中等速度，准确率 ~98-99%，适合常规分析（足够用于分类、比对） - sup (super accuracy)：最慢（约 hac 的 3-5 倍计算量），准确率最高（~99.5% for simplex），需要好的 GPU

选择建议： - 变异检测/精细分析 → sup - 宏基因组分类/快速筛查 → hac 够用 - 实时场景（如临床快速检测病原体）→ fast

实际项目中通常用 sup 模型做最终分析，用 fast/hac 做前期预览和样本量估算。

速查表¶

任务	工具	关键命令/参数
Nanopore basecalling	Dorado v1.4.0	`dorado basecaller <model> <pod5_dir>`
质控	NanoPlot	`NanoPlot --fastq reads.fq --outdir qc/`
Nanopore 比对	minimap2	`minimap2 -ax map-ont ref.fa reads.fq`
HiFi 比对	minimap2	`minimap2 -ax map-hifi ref.fa reads.fq`
Nanopore SNV/Indel	Clair3 v2.0.1	`run_clair3.sh --platform ont`
HiFi SNV/Indel	DeepVariant v1.10.0	`--model_type=PACBIO`
结构变异	Sniffles2 v2.7.5	`sniffles --input in.bam --vcf sv.vcf`
Nanopore 组装	Flye 2.9.6	`flye --nano-hq reads.fq --out-dir asm/`
HiFi 组装	hifiasm 0.25.0	`hifiasm -o prefix -t 32 reads.fq.gz`
组装 polish	Medaka	`medaka_polish -i reads.fq -d asm.fa`
宏基因组组装	Flye (meta)	`flye --nano-hq reads.fq --meta`
甲基化分析	modkit	`modkit pileup in.bam out.bed`
RNA修饰检测	Dorado + modkit	`--modified-bases m6A`
GFA→FASTA	awk	`awk '/^S/{print ">"$2;print $3}'`

延伸资源¶

Dorado 官方文档: https://github.com/nanoporetech/dorado — ONT 最新 basecaller，含模型列表和使用说明
hifiasm 论文: Cheng et al., "Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm" (Nature Methods, 2021)
Sniffles2 论文: Smolka et al., "Detection of mosaic and population-level structural variants with Sniffles2" (Nature Biotechnology, 2024)
Clair3 论文: Zheng et al., "A deep learning-based unified framework for small/indel variant calling" (Nature Computational Science, 2022)
DeepVariant 官方: https://github.com/google/deepvariant — Google 深度学习变异检测
T2DM + 长读长宏基因组: Bai et al., "Long-read metagenomics reveals strain-level variations in the gut microbiome of type 2 diabetes patients" — 结合该项目方向
Nanopore Community: https://community.nanoporetech.com — 官方社区，问题排查好去处
PacBio SMRT Link 文档: https://www.pacb.com/support/documentation/ — PacBio 官方分析流程

自我审核清单¶

[x] 与 13_测序技术原理不重复（13讲原理，本篇讲数据分析流程和工具）
[x] 包含 Nanopore 完整流程（Dorado→NanoPlot→minimap2→Clair3→Flye→Medaka）
[x] 包含 PacBio HiFi 流程（CCS→比对→DeepVariant→hifiasm）
[x] 包含结构变异检测（Sniffles2 + SVIM）
[x] 包含直接 RNA 测序和修饰检测
[x] 包含长读长宏基因组分析（与用户 T2D 项目关联）
[x] 包含 Nanopore vs PacBio 对比表
[x] 面试题 5 道 + 详细答案
[x] 速查表完整
[x] 版本信息已联网核实（Dorado v1.4.0, hifiasm 0.25.0, DeepVariant v1.10.0, Clair3 v2.0.1, Sniffles v2.7.5, Flye 2.9.6）
[x] 每行命令有中文注释
[x] 字数约 4500 字，在 3000-5000 字范围内