AMRFinderPlus¶

一句话概述¶

抗生素耐药基因（ARG）分析就是在宏基因组数据中找出微生物"对抗抗生素的武器"——哪些细菌携带了让它们不怕药物的基因，这对公共卫生和临床治疗至关重要。

核心知识点表格¶

知识点	说明
ARG	Antibiotic Resistance Gene，抗生素耐药基因
CARD/RGI	最全面的耐药基因数据库+分析工具，支持基因组和宏基因组
AMRFinderPlus	NCBI开发，支持基因+点突变检测，准确率98.4%
ResFinder	DTU开发，基于Kmer分析，适合临床监测
ResFinderFG v2.0	功能宏基因组来源的ARG数据库，能找到传统数据库没有的新ARG
耐药机制	抗生素灭活、靶点修饰、外排泵、通透性改变

白话解释¶

抗生素就像"子弹"，本来能杀死细菌。但有些细菌进化出了"防弹衣"——这就是耐药基因编码的蛋白质。

常见的"防弹衣"类型： 1. 灭活酶（把子弹拆了）：比如β-内酰胺酶分解青霉素 2. 靶点修饰（把被打中的地方换了）：修改抗生素的靶标蛋白 3. 外排泵（把子弹弹出去）：把进入细菌的抗生素泵出去 4. 通透性改变（加厚城墙）：减少抗生素进入细菌的量

宏基因组ARG分析的目的就是：在复杂的微生物群落中找出谁带了什么"防弹衣"。

三大工具详解¶

CARD + RGI¶

白话解释： CARD（Comprehensive Antibiotic Resistance Database）是最全面的耐药基因"百科全书"，RGI（Resistance Gene Identifier）是配套的搜索工具。就像一本字典（CARD）配一个翻译官（RGI）。

数据库规模（v3.2.4）： - 6,627个本体论术语 - 5,010条参考序列 - 1,933个耐药相关突变 - 5,057个AMR检测模型

# 安装RGI（CARD的分析工具）
conda install -c bioconda rgi  # 用conda安装rgi

# 下载最新CARD数据库
wget https://card.mcmaster.ca/latest/data  # 下载数据库
tar -xvf data ./card.json                  # 解压

# 加载数据库
rgi load \
    --card_json card.json \      # 加载CARD数据库
    --local                      # 保存到本地

# ====== 模式1：分析基因组/MAG（蛋白序列）======
rgi main \
    --input_sequence predicted_proteins.faa \  # 输入蛋白序列
    --output_file rgi_genome_results \         # 输出前缀
    --input_type protein \                     # 输入类型：蛋白质
    --local \                                  # 使用本地数据库
    --clean \                                  # 清理临时文件
    -n 16                                      # 线程数

# ====== 模式2：分析宏基因组reads ======
rgi bwt \
    --read_one sample_R1.fastq.gz \  # 输入正向reads
    --read_two sample_R2.fastq.gz \  # 输入反向reads
    --output_file rgi_meta_results \ # 输出前缀
    --local \                        # 使用本地数据库
    --aligner bowtie2 \              # 比对工具：bowtie2或kma
    -n 16                            # 线程数

# ====== 模式3：分析组装后的contigs ======
rgi main \
    --input_sequence contigs.fa \    # 输入组装的contigs
    --output_file rgi_contig_results \  # 输出前缀
    --input_type contig \            # 输入类型：contig
    --local \
    --clean \
    -n 16

# 查看结果
cat rgi_genome_results.txt  # 查看结果表格

RGI结果解读：

# 关键列说明：
# ORF_ID          — 开放阅读框ID
# Best_Hit_ARO    — 最佳匹配的ARO术语（耐药基因名称）
# Drug Class      — 耐药的药物类别
# Resistance Mechanism — 耐药机制
# AMR Gene Family — ARG基因家族
# % Identity      — 序列相似度百分比
# Model_type      — 检测模型类型：
#   Perfect: 与已知ARG 100%匹配
#   Strict: 高置信度匹配（推荐使用的阈值）
#   Loose: 低置信度匹配（可能是假阳性）

AMRFinderPlus¶

白话解释： NCBI开发的官方工具，不仅能找耐药基因，还能检测耐药相关的点突变、应激反应基因和毒力基因。经过6,242株分离株验证，准确率98.4%。

# 安装AMRFinderPlus
conda install -c bioconda ncbi-amrfinderplus  # 安装

# 更新数据库（每次使用前建议更新）
amrfinder --update  # 更新到最新数据库版本

# ====== 分析蛋白序列 ======
amrfinder \
    --protein predicted_proteins.faa \  # 输入蛋白序列
    --output amrfinder_results.tsv \   # 输出结果文件
    --threads 16 \                     # 线程数
    --plus                             # 开启plus模式（包含应激/毒力基因）

# ====== 分析核酸序列 ======
amrfinder \
    --nucleotide contigs.fa \          # 输入核酸序列
    --output amrfinder_nuc_results.tsv \  # 输出文件
    --threads 16 \
    --plus

# ====== 同时分析蛋白+核酸+GFF注释（最准确）======
amrfinder \
    --protein predicted_proteins.faa \  # 蛋白序列
    --nucleotide contigs.fa \           # 核酸序列
    --gff predicted_genes.gff \         # GFF注释文件
    --output amrfinder_full.tsv \       # 输出文件
    --organism Escherichia \            # 指定物种（用于检测点突变）
    --threads 16 \
    --plus

AMRFinderPlus结果解读：

# 关键列说明：
# Gene symbol     — 基因名称
# Sequence name   — 所在序列ID
# Element type    — AMR/STRESS/VIRULENCE
# Element subtype — POINT（点突变）/AMR（获得性基因）
# Class           — 抗生素类别
# Subclass        — 抗生素亚类
# Method          — 检测方法：EXACTX/ALLELEX/BLASTX/HMM/POINTX
# % Coverage      — 覆盖度
# % Identity      — 相似度

ResFinder¶

白话解释： 丹麦技术大学（DTU）开发的在线工具，基于Kmer分析，速度快，特别适合临床监测场景。在线版免费使用，本地版需要安装。

# 安装ResFinder本地版
conda install -c bioconda resfinder  # 安装

# 下载数据库
git clone https://bitbucket.org/genomicepidemiology/resfinder_db.git  # 下载耐药基因数据库
git clone https://bitbucket.org/genomicepidemiology/pointfinder_db.git  # 下载点突变数据库

# 运行ResFinder
python -m resfinder \
    -ifq sample_R1.fastq.gz sample_R2.fastq.gz \  # 输入reads
    -o resfinder_output/ \   # 输出目录
    -db_res resfinder_db/ \  # 耐药基因数据库路径
    -db_point pointfinder_db/ \  # 点突变数据库路径
    -s "Escherichia coli" \  # 指定物种（用于点突变检测）
    --min_cov 0.6 \          # 最低覆盖度60%
    --threshold 0.9          # 最低相似度90%

# 也可以使用在线版本：
# https://cge.food.dtu.dk/services/ResFinder/

宏基因组ARG分析完整流程¶

# ====== 推荐的完整分析流程 ======

# 第一步：质控和去宿主
fastp -i R1.fq.gz -I R2.fq.gz -o clean_R1.fq.gz -O clean_R2.fq.gz  # 质控
bowtie2 -x human_ref -1 clean_R1.fq.gz -2 clean_R2.fq.gz \
    --un-conc-gz non_host_%.fq.gz -S /dev/null  # 去宿主reads

# 第二步：组装（可选，提高灵敏度）
megahit -1 non_host_1.fq.gz -2 non_host_2.fq.gz -o assembly/ -t 16  # 组装

# 第三步：基因预测
prodigal -i assembly/final.contigs.fa \
    -o genes.gff \           # 输出GFF注释
    -a proteins.faa \        # 输出蛋白序列
    -p meta                  # 宏基因组模式

# 第四步：多工具并行分析ARG
# 4a. CARD/RGI分析
rgi main -i proteins.faa -o rgi_results -t protein --local -n 16

# 4b. AMRFinderPlus分析
amrfinder --protein proteins.faa --nucleotide assembly/final.contigs.fa \
    --gff genes.gff -o amrfinder_results.tsv -t 16 --plus

# 第五步：结果整合与统计
python3 << 'EOF'
import pandas as pd  # 导入pandas

# 读取RGI结果
rgi = pd.read_csv("rgi_results.txt", sep="\t")  # 读取RGI结果
rgi_strict = rgi[rgi["Cut_Off"] == "Strict"]     # 只保留Strict级别的结果

# 读取AMRFinderPlus结果
amr = pd.read_csv("amrfinder_results.tsv", sep="\t")  # 读取AMRFinder结果
amr_genes = amr[amr["Element type"] == "AMR"]          # 只保留AMR类型

# 统计各药物类别的ARG数量
print("=== CARD/RGI 结果 ===")
print(rgi_strict["Drug Class"].value_counts().head(10))  # 打印Top10药物类别

print("\n=== AMRFinderPlus 结果 ===")
print(amr_genes["Class"].value_counts().head(10))  # 打印Top10药物类别

# 统计耐药机制分布
print("\n=== 耐药机制分布 ===")
print(rgi_strict["Resistance Mechanism"].value_counts())  # 各机制的ARG数量
EOF

工具对比¶

特性	CARD/RGI	AMRFinderPlus	ResFinder
开发机构	McMaster大学	NCBI	DTU
数据库大小	5,010条参考序列	NCBI参考基因目录	3,154条获得性ARG
检测方式	BLAST+HMM模型	HMM+BLAST	Kmer分析
点突变检测	支持（通过CARD突变数据库）	支持（需指定物种）	支持（通过PointFinder）
宏基因组reads分析	支持（rgi bwt）	不直接支持reads	支持
毒力基因	不含	支持（--plus模式）	不含
在线版	https://card.mcmaster.ca/	无	https://cge.food.dtu.dk/
推荐场景	研究级全面分析	临床/公卫提交	快速筛查监测

常见报错与解决¶

报错	原因	解决方案
`rgi load` 失败	card.json格式或版本不对	从CARD官网重新下载最新版本
AMRFinderPlus `database not found`	数据库未下载	运行 `amrfinder --update`
AMRFinderPlus `Unknown organism`	物种名拼写错误	查看支持的物种列表：`amrfinder --list_organisms`
RGI运行极慢	输入序列太多	先过滤短序列（<200bp）
ResFinder `species not available`	该物种不支持点突变检测	去掉物种参数，只检测获得性ARG
`DIAMOND database error`	DIAMOND版本不兼容	更新DIAMOND版本

速查表¶

# 工具选择
研究级全面分析 → CARD/RGI（最全面的数据库）
临床提交/公卫监测 → AMRFinderPlus（NCBI官方）
快速在线筛查 → ResFinder（DTU在线平台）
探索新型ARG → ResFinderFG v2.0（功能宏基因组来源）
深度学习检测新ARG → DeepARG

# CARD/RGI结果筛选标准
Perfect: 100%匹配已知ARG → 高度确信
Strict: 高置信度比特分数阈值以上 → 推荐使用
Loose: 低置信度 → 通常不用，容易假阳性

# 常见耐药机制
antibiotic inactivation — 抗生素灭活（如β-内酰胺酶）
antibiotic target alteration — 靶标修饰
antibiotic efflux — 外排泵
reduced permeability — 降低通透性
antibiotic target replacement — 靶标替换
antibiotic target protection — 靶标保护

# 关键命令速查
rgi main -i proteins.faa -o out -t protein --local -n 16
amrfinder --protein prot.faa -o out.tsv -t 16 --plus
amrfinder --update

面试高频问题¶

Q1：什么是抗生素耐药基因？为什么要研究？

A：ARG是使细菌能够抵抗抗生素的基因。研究ARG对公共卫生至关重要，因为耐药菌感染导致治疗困难，WHO将抗生素耐药性列为全球十大公共卫生威胁之一。通过宏基因组分析可以监测环境和人体中的耐药基因分布。

Q2：CARD和AMRFinderPlus有什么区别？你会怎么选？

A：CARD有最全面的ARG数据库和本体论框架，支持宏基因组reads直接分析；AMRFinderPlus是NCBI官方工具，经过大规模验证准确率98.4%，支持点突变检测。研究分析建议两个都跑，取交集或并集。

Q3：主要的耐药机制有哪些？

A：四大机制：①抗生素灭活（产生降解酶，如β-内酰胺酶）；②靶标修饰/替换（改变抗生素结合位点）；③外排泵（把抗生素泵出细胞）；④降低通透性（减少抗生素进入）。

Q4：RGI结果中Perfect/Strict/Loose三个级别是什么意思？

A：Perfect表示与已知ARG 100%匹配；Strict表示在比特分数阈值以上的高置信度匹配；Loose表示低于阈值的可能匹配。通常只用Perfect和Strict的结果，Loose级别假阳性太多。

Q5：如何在宏基因组中定量ARG的丰度？

A：常用方法：将reads比对到ARG数据库（如rgi bwt），计算RPKM或TPM值进行标准化。也可以先组装再注释，用基因长度和覆盖深度计算丰度。注意要同时标准化为"每细胞拷贝数"（除以16S rRNA基因拷贝数）才能进行样本间比较。