跳转至

QUAST — 基因组组装质量评估标准工具


一句话说明

QUAST(Quality Assessment Tool for Genome Assemblies)是评估基因组组装质量的标准工具,能计算 N50、L50、错配率等关键指标,支持有参考和无参考两种评估模式,还有专门的宏基因组版本 MetaQUAST。


安装与配置

# 方法1:conda 安装(推荐)
conda install -c bioconda quast  # 从 bioconda 安装

# 方法2:pip 安装
pip install quast

# 验证安装
quast --version  # 当前最新 5.2.0(2023年)

核心用法

基本评估(无参考)

# 评估单个组装
quast \
  assembly.fasta \               # 输入组装文件
  -o quast_report \              # 输出目录
  -t 16 \                        # 16 线程
  --min-contig 500               # 只统计 >=500bp 的 contig

# 比较多个组装结果
quast \
  megahit_assembly.fa \          # 组装结果 1
  spades_assembly.fa \           # 组装结果 2
  flye_assembly.fa \             # 组装结果 3
  -o compare_report \
  -t 16 \
  -l "MEGAHIT,SPAdes,Flye"      # 给每个组装起标签

有参考基因组的评估

# 与参考基因组比较(能计算错配率、错误组装等)
quast \
  assembly.fasta \
  -r reference.fa \              # 参考基因组
  -g genes.gff \                 # 基因注释(检查基因完整性)
  -o ref_quast_report \
  -t 16

# 输出会额外包含:
# 错配率、indel 率、错误组装数、基因组覆盖率、基因覆盖率

宏基因组评估(MetaQUAST)

# 宏基因组组装评估
metaquast \
  metagenome_assembly.fa \       # 宏基因组组装结果
  -o metaquast_report \
  -t 16 \
  --max-ref-number 50            # 最多下载 50 个参考基因组

# 指定参考基因组(已知菌群组成时)
metaquast \
  metagenome_assembly.fa \
  -r ref1.fa,ref2.fa,ref3.fa \   # 多个参考基因组
  -o metaquast_known_report \
  -t 16

进阶用法

# 大型组装(人类基因组)— 使用 --large 模式
quast \
  --large \                      # 大基因组模式(优化内存和速度)
  human_assembly.fa \
  -r GRCh38.fa \
  -o large_report \
  -t 32

# 生成 Icarus 可视化(交互式组装查看器)
# QUAST 默认生成 Icarus,打开 report.html 即可看到

# 加入读段统计(计算 reads mapping 相关指标)
quast \
  assembly.fasta \
  -r reference.fa \
  --pe1 R1.fq.gz --pe2 R2.fq.gz \  # 双端读段
  -o reads_quast_report \
  -t 16

关键输出指标

# report.txt 中的关键指标解读:
# contigs (>= 500 bp)  — 大于 500bp 的 contig 数
# Total length          — 组装总长度
# N50                   — 把所有 contig 从大到小排列,累加到总长度一半时的 contig 长度
# L50                   — 累加到一半所需的最少 contig 数(越小越好)
# Largest contig        — 最长 contig
# GC (%)                — GC 含量
# # misassemblies       — 错误组装数(有参考时)
# Genome fraction (%)   — 覆盖参考基因组的比例(有参考时)

常见问题与踩坑

问题1:N50 和 L50 是什么意思

N50 白话解释:把所有 contig 从大到小排一排,累加长度到总量的一半时,你正在加的那条 contig 的长度就是 N50。N50 越大说明组装越连续
L50:达到 N50 时用了几条 contig。L50 越小越好

问题2:无参考评估能说明什么

能说明:组装的连续性(N50)、完整性(总长度)、基本统计
不能说明:准确性(需要参考基因组或 BUSCO)

问题3:MetaQUAST 运行很慢

原因:MetaQUAST 会自动从 NCBI 下载参考基因组
解决:用 --max-ref-number 限制下载数量,或手动提供参考基因组 -r

问题4:contig 数量很多但 N50 还行

说明:可能存在大量短 contig(碎片),用 --min-contig 1000 过滤后再评估


速查卡片

命令/参数用途
quast assembly.fa -o report基本评估
-r reference.fa有参考评估
-g genes.gff基因注释评估
-l "name1,name2"给组装添加标签
--min-contig 500最短 contig 过滤
--large大基因组模式
metaquast宏基因组评估
--max-ref-number 50限制参考数量
report.html交互式报告
report.txt文本格式报告