QUAST — 基因组组装质量评估标准工具¶
一句话说明¶
QUAST(Quality Assessment Tool for Genome Assemblies)是评估基因组组装质量的标准工具,能计算 N50、L50、错配率等关键指标,支持有参考和无参考两种评估模式,还有专门的宏基因组版本 MetaQUAST。
安装与配置¶
# 方法1:conda 安装(推荐)
conda install -c bioconda quast # 从 bioconda 安装
# 方法2:pip 安装
pip install quast
# 验证安装
quast --version # 当前最新 5.2.0(2023年)
核心用法¶
基本评估(无参考)¶
# 评估单个组装
quast \
assembly.fasta \ # 输入组装文件
-o quast_report \ # 输出目录
-t 16 \ # 16 线程
--min-contig 500 # 只统计 >=500bp 的 contig
# 比较多个组装结果
quast \
megahit_assembly.fa \ # 组装结果 1
spades_assembly.fa \ # 组装结果 2
flye_assembly.fa \ # 组装结果 3
-o compare_report \
-t 16 \
-l "MEGAHIT,SPAdes,Flye" # 给每个组装起标签
有参考基因组的评估¶
# 与参考基因组比较(能计算错配率、错误组装等)
quast \
assembly.fasta \
-r reference.fa \ # 参考基因组
-g genes.gff \ # 基因注释(检查基因完整性)
-o ref_quast_report \
-t 16
# 输出会额外包含:
# 错配率、indel 率、错误组装数、基因组覆盖率、基因覆盖率
宏基因组评估(MetaQUAST)¶
# 宏基因组组装评估
metaquast \
metagenome_assembly.fa \ # 宏基因组组装结果
-o metaquast_report \
-t 16 \
--max-ref-number 50 # 最多下载 50 个参考基因组
# 指定参考基因组(已知菌群组成时)
metaquast \
metagenome_assembly.fa \
-r ref1.fa,ref2.fa,ref3.fa \ # 多个参考基因组
-o metaquast_known_report \
-t 16
进阶用法¶
# 大型组装(人类基因组)— 使用 --large 模式
quast \
--large \ # 大基因组模式(优化内存和速度)
human_assembly.fa \
-r GRCh38.fa \
-o large_report \
-t 32
# 生成 Icarus 可视化(交互式组装查看器)
# QUAST 默认生成 Icarus,打开 report.html 即可看到
# 加入读段统计(计算 reads mapping 相关指标)
quast \
assembly.fasta \
-r reference.fa \
--pe1 R1.fq.gz --pe2 R2.fq.gz \ # 双端读段
-o reads_quast_report \
-t 16
关键输出指标¶
# report.txt 中的关键指标解读:
# contigs (>= 500 bp) — 大于 500bp 的 contig 数
# Total length — 组装总长度
# N50 — 把所有 contig 从大到小排列,累加到总长度一半时的 contig 长度
# L50 — 累加到一半所需的最少 contig 数(越小越好)
# Largest contig — 最长 contig
# GC (%) — GC 含量
# # misassemblies — 错误组装数(有参考时)
# Genome fraction (%) — 覆盖参考基因组的比例(有参考时)
常见问题与踩坑¶
问题1:N50 和 L50 是什么意思¶
N50 白话解释:把所有 contig 从大到小排一排,累加长度到总量的一半时,你正在加的那条 contig 的长度就是 N50。N50 越大说明组装越连续
L50:达到 N50 时用了几条 contig。L50 越小越好
问题2:无参考评估能说明什么¶
能说明:组装的连续性(N50)、完整性(总长度)、基本统计
不能说明:准确性(需要参考基因组或 BUSCO)
问题3:MetaQUAST 运行很慢¶
原因:MetaQUAST 会自动从 NCBI 下载参考基因组
解决:用 --max-ref-number 限制下载数量,或手动提供参考基因组 -r
问题4:contig 数量很多但 N50 还行¶
说明:可能存在大量短 contig(碎片),用 --min-contig 1000 过滤后再评估
速查卡片¶
| 命令/参数 | 用途 |
|---|---|
quast assembly.fa -o report | 基本评估 |
-r reference.fa | 有参考评估 |
-g genes.gff | 基因注释评估 |
-l "name1,name2" | 给组装添加标签 |
--min-contig 500 | 最短 contig 过滤 |
--large | 大基因组模式 |
metaquast | 宏基因组评估 |
--max-ref-number 50 | 限制参考数量 |
report.html | 交互式报告 |
report.txt | 文本格式报告 |