生信数据库大全

微生物组研究常用数据库速查 — 面试必备知识点

数据库分类总览

微生物组研究涉及的数据库大致分为 4 大类，每类解决不同的问题。面试时能说清"你用了什么数据库、为什么用、怎么用"是加分项。

一、微生物参考库（"谁在那里？"）

SILVA 138.2

16S/18S/23S rRNA 参考数据库，SSU 9,469,070 条序列。QIIME2 标准分类器。

16SrRNA三域生命

GTDB R232

基因组分类学数据库，901,341 个基因组，199,923 个物种簇。基于 ANI 的全基因组分类。

基因组ANI2026.04

Greengenes2 2024.09

统一 16S 与宏基因组数据的参考树，21,074,442 条序列。每 6 个月更新。

16SWGS统一分类

二、功能注释库（"它们在干什么？"）

KEGG

代谢通路数据库，576 条参考通路。KO → Module → Pathway 三级结构。

代谢通路KO收费

COG / eggNOG

直系同源基因簇，eggNOG-mapper 做功能注释。免费替代 KEGG 的选择之一。

功能分类免费

CAZy / dbCAN3

碳水化合物活性酶数据库，505 个 CAZyme 家族，HMMdb v14。

碳水化合物GH/GT/PL

VFDB 2025

毒力因子数据库，32 个属，14 大类毒力因子。新增 902 种抗毒力化合物。

毒力因子致病性

CARD / ResFinder

抗生素抗性基因数据库。CARD: 6,442 条参考序列，6,480 个检测模型。ResFinder 4.1。

耐药基因RGI

三、公共数据库（"数据从哪来？"）

NCBI SRA

全球最大测序数据存档，47+ PB 数据量，31,000,000+ 公共文件。

原始数据fastq

NCBI GEO

基因表达数据库，存放芯片和转录组数据。

表达谱芯片

GMrepo v3

肠道微生物组数据库，890 项目，118,965 样本，302 种疾病。

肠道菌群疾病关联

HMP

人类微生物组计划，包含人体 5 大部位的微生物组数据。

人体微生物组

IMG/M

JGI 宏基因组数据平台，提供基因组注释和比较基因组学工具。

宏基因组JGI

ENA / MGnify

欧洲核酸档案 + EBI 宏基因组分析平台。SRA 的欧洲镜像。

欧洲宏基因组分析

四、基因组库（"参考基因组在哪？"）

RefSeq

NCBI 精选参考序列数据库，经过人工审核的高质量基因组。

参考基因组精选

GenBank

NCBI 通用序列数据库，接受所有提交，未经精选。与 RefSeq 互补。

序列提交全量

UniProt

蛋白质序列与功能数据库。Swiss-Prot（精选）+ TrEMBL（自动注释）。

蛋白质功能注释

01 SILVA vs GTDB — 物种分类的两大标准参考库 ▶

SILVA 138.2 — rRNA 参考数据库

SILVA 是最权威的 rRNA 基因参考数据库，覆盖细菌、古菌、真核三域生命。白话说：做 16S 扩增子分析基本都要用 SILVA。

属性	详情
当前版本	138.2（维护更新，即将发布 144）
SSU（16S/18S）序列	9,469,070 条
LSU（23S/28S）序列	1,312,521 条
覆盖范围	Bacteria + Archaea + Eukarya
分类策略	基于 rRNA 基因序列比对的系统发育分类
数据格式	FASTA、ARB、QIIME2 分类器
许可证	CC-BY 4.0（自 138 版起）
网址	arb-silva.de

# QIIME2 中使用 SILVA 138.2 做物种分类 qiime feature-classifier classify-sklearn \ --i-classifier silva-138.2-ssu-nr99-515f-806r-classifier.qza \ --i-reads rep-seqs.qza \ --o-classification taxonomy.qza # 下载 SILVA 预训练分类器（QIIME2 官网提供） wget https://data.qiime2.org/2024.5/common/silva-138-99-515-806-nb-classifier.qza

📖 参数逐行讲解

qiime feature-classifier classify-sklearn 用 QIIME2 的 sklearn 分类器给序列做物种注释

--i-classifier 输入预训练好的分类器文件（这里用 SILVA 138.2 针对 515F/806R 区域训练的）

--i-reads rep-seqs.qza 输入你的代表序列（去重后的 ASV/OTU 序列）

--o-classification taxonomy.qza 输出分类结果文件（每条序列对应一个物种注释）

wget 从 QIIME2 官方下载 SILVA 预训练分类器，515F-806R 是 V4 区引物范围，nr99 表示 99% 相似度聚类的非冗余集

GTDB R232 — 基因组分类学数据库

GTDB 用全基因组信息（120 个标记蛋白）做系统发育，比 16S 单基因分类更准。白话说：GTDB 是"用全基因组给微生物重新排族谱"。

属性	详情
当前版本	R11-RS232（2026 年 4 月发布）
细菌基因组	878,998 个
古菌基因组	22,343 个
总基因组	901,341 个
物种簇	199,923 个（细菌 189,801 + 古菌 10,122）
分类策略	基于 ANI（平均核苷酸一致性）+ 120 个标记蛋白的系统发育
基因组来源	分离株 + MAGs + SAGs
网址	gtdb.ecogenomic.org

# 使用 GTDB-Tk 对 MAGs 进行分类 gtdbtk classify_wf \ --genome_dir ./bins/ \ --out_dir ./gtdbtk_output/ \ --extension fa \ --cpus 8 # 输出文件：gtdbtk.bac120.summary.tsv（细菌分类结果） # 输出文件：gtdbtk.ar53.summary.tsv（古菌分类结果）

📖 参数逐行讲解

gtdbtk classify_wf 运行 GTDB-Tk 的完整分类工作流（包括识别标记基因、比对、建树、分类）

--genome_dir ./bins/ 输入目录，放你拼装好的 MAGs（每个 bin 一个 fasta 文件）

--out_dir ./gtdbtk_output/ 输出目录，分类结果会写在这里

--extension fa 基因组文件的后缀名（也可以是 fna、fasta 等，和你文件实际后缀一致就行）

--cpus 8 使用 8 个 CPU 核心并行计算（GTDB-Tk 很吃内存，建议至少 64GB RAM）

输出两个关键文件：bac120.summary.tsv 是细菌分类结果（基于 120 个标记蛋白），ar53.summary.tsv 是古菌（基于 53 个标记蛋白）

对比表

对比维度	SILVA	GTDB
分类策略	基于 rRNA 基因（单基因）	基于全基因组（120/53 标记蛋白）
覆盖范围	三域生命（含真核）	仅 Bacteria + Archaea
输入数据	16S/18S/23S 扩增子	全基因组 / MAGs
典型用途	QIIME2 扩增子分类	MAG 分类（GTDB-Tk）
更新频率	不定期（138.2 → 即将 144）	约每年一次（R226 = 2025.04）
分类命名	沿用传统分类	基于基因组的新命名（拆分了很多传统属）
数据格式	FASTA / ARB / QIIME2 classifier	TSV / Newick tree / FASTA

面试常问"SILVA 和 GTDB 有什么区别？"——记住关键词：SILVA = rRNA 单基因分类，适合 16S 扩增子；GTDB = 全基因组分类，适合 MAGs。两者不冲突，用在不同阶段。

追问"为什么 GTDB 把很多传统分类拆了？"——因为以前靠 16S 单基因分类分辨率有限，很多不同的菌被归到同一个属。GTDB 用全基因组信息发现它们差异很大（ANI < 95%），所以拆成不同的属/种。比如传统的 Clostridium 属在 GTDB 中被拆成了十几个属。

02 KEGG 通路数据库 — 代谢通路与功能注释功能注释 ▶

KEGG 基本信息

KEGG（Kyoto Encyclopedia of Genes and Genomes）是最权威的代谢通路数据库。白话说：KEGG 就是"微生物在干什么活"的地图。

属性	详情
参考通路数	~576 条手工绘制的参考通路
通路分类	7 大类：代谢、遗传信息、环境信息、细胞过程、有机体系统、人类疾病、药物开发
最新版本	Release 118.0（2026 年 4 月）
许可	学术免费查看，批量下载需付费订阅
网址	kegg.jp

KEGG 层级结构

K number
（单个基因功能）

→

Module
（功能模块）

→

Pathway
（代谢通路）

→

Map
（通路地图）

KO（K number）：一个基因的功能标签，如 K00844 = 己糖激酶
Module：一组协同工作的基因，如 M00001 = 糖酵解核心模块
Pathway：完整的代谢通路，如 ko00010 = 糖酵解/糖异生
Map：可视化的通路地图

常用命令

# KEGG API 查询（免费，但限速） # 查询某个 KO 编号的信息 curl https://rest.kegg.jp/get/ko:K00844 # 查询某条通路的基因列表 curl https://rest.kegg.jp/link/ko/pathway:ko00010 # 获取通路图（PNG 格式） curl https://rest.kegg.jp/get/ko00010/image > glycolysis.png

📖 参数逐行讲解

curl https://rest.kegg.jp/get/ko:K00844 查询 KO 编号 K00844（己糖激酶）的详细信息，包括基因名、功能描述、所属通路等

rest.kegg.jp 是 KEGG 的免费 REST API 地址，格式为 /操作/数据库:ID

/link/ko/pathway:ko00010 查询 ko00010 通路（糖酵解）包含的所有 KO 编号列表

/get/ko00010/image 下载 ko00010 通路的 PNG 图片，> glycolysis.png 把输出重定向保存为图片文件

常用 API 操作：get（获取条目）、link（查关联）、find（搜索）、list（列表）

HUMAnN3 + KEGG

# HUMAnN3 默认使用 UniRef90 + MetaCyc # 要映射到 KEGG，需要额外步骤： # 1. 先用 HUMAnN3 跑标准流程 humann --input sample.fastq.gz --output humann_out/ # 2. 用 humann_regroup_table 把 UniRef 映射到 KO humann_regroup_table \ --input humann_out/sample_genefamilies.tsv \ --groups uniref90_ko \ --output sample_ko.tsv # 3. 再归一化 humann_renorm_table \ --input sample_ko.tsv \ --units cpm \ --output sample_ko_cpm.tsv

📖 参数逐行讲解

humann --input sample.fastq.gz HUMAnN3 主命令，输入质控后的 fastq 文件（支持 gz 压缩）

--output humann_out/ 输出目录，会生成三个核心文件：genefamilies（基因家族丰度）、pathabundance（通路丰度）、pathcoverage（通路覆盖度）

humann_regroup_table 把 UniRef90 基因家族 ID 重新映射到其他分类体系

--groups uniref90_ko 映射关系：从 UniRef90 映射到 KEGG KO 编号（白话：把 HUMAnN3 的结果"翻译"成 KEGG 能懂的编号）

humann_renorm_table 对丰度表做归一化，消除测序深度差异的影响

--units cpm 归一化单位用 CPM（counts per million，每百万计数），也可以用 relab（相对丰度）

面试追问"KEGG 收费后怎么办？"——答：(1) MetaCyc（HUMAnN3 默认用的，免费开源）；(2) Reactome（侧重人类通路）；(3) eggNOG-mapper（COG/KO 双注释，免费）；(4) KEGG API 仍然免费查询，只是批量下载收费。

KEGG 从 2011 年开始对 FTP 批量下载收费。但 KEGG REST API（rest.kegg.jp）仍然免费，只是有速率限制。学术论文中使用 KEGG 注释结果是允许的。

03 CAZy / dbCAN — 碳水化合物活性酶数据库功能注释 ▶

CAZy 基本概念

CAZy（Carbohydrate-Active enZYmes）收集所有能合成、修饰、降解碳水化合物的酶。白话说：CAZy 就是研究"微生物怎么吃糖"的数据库。

CAZyme 六大类

缩写	全称	功能（白话）	举例
GH	Glycoside Hydrolases	切糖链（"剪刀"）	纤维素酶、淀粉酶
GT	Glycosyl Transferases	接糖链（"胶水"）	合成多糖
PL	Polysaccharide Lyases	断糖链（"斧头"，通过消除反应）	果胶裂解酶
CE	Carbohydrate Esterases	去酯基修饰（"去壳"）	木聚糖去乙酰化
AA	Auxiliary Activities	辅助氧化（"助攻"）	木质素降解的辅助酶
CBM	Carbohydrate-Binding Modules	结合糖（"抓手"，不催化）	帮酶定位到底物

dbCAN3 注释工具

dbCAN 是 CAZy 数据库的自动化注释工具。当前版本 dbCAN3，底层数据库 HMMdb v14（2025.08 更新），505 个 CAZyme 家族，4,098,879 条序列。

属性	详情
工具版本	dbCAN3 / run_dbcan v5
HMM 数据库	HMMdb v14（875 个 HMM 模型）
CAZyme 家族数	505 个
注释方法	HMMER + DIAMOND + dbCAN-sub（三合一）
新功能	底物预测（dbCAN-sub，53,411 个亚家族）
网址	pro.unl.edu/dbCAN2/

# 安装 run_dbcan pip install dbcan # 下载数据库 dbcan_build --cpus 4 --db_dir db/ --clean # 对蛋白序列注释 CAZymes run_dbcan proteins.faa protein \ --db_dir db/ \ --out_dir dbcan_out/ \ --tools all # 输出文件：overview.txt（汇总三种方法的结果） # 推荐：至少 2/3 方法一致才算可信

📖 参数逐行讲解

pip install dbcan 安装 run_dbcan 工具（也可以用 conda 安装）

dbcan_build --cpus 4 --db_dir db/ --clean 下载并构建 dbCAN 数据库，--cpus 4 用 4 核加速，--db_dir 指定数据库存放位置，--clean 下载完清理临时文件

run_dbcan proteins.faa protein 对蛋白序列文件做 CAZyme 注释，第二个参数 protein 表示输入是蛋白序列（也可以是 prok 表示原核基因组、meta 表示宏基因组）

--db_dir db/ 指向之前下载的数据库目录

--out_dir dbcan_out/ 输出目录

--tools all 同时用三种方法注释：HMMER（隐马尔可夫模型）、DIAMOND（快速序列比对）、dbCAN-sub（底物预测）。至少 2/3 一致才可信

overview.txt 示例输出

Gene_ID EC# HMMER DIAMOND dbCAN-sub #Tools gene_001 3.2.1.4 GH5 GH5 GH5_4 3 gene_002 3.2.1.1 GH13 GH13_28 GH13_28 3 gene_003 - GT2 GT2 - 2

追问"为什么微生物组研究关注 CAZy？"——因为肠道微生物的核心功能就是降解人体无法消化的碳水化合物（膳食纤维、抗性淀粉）。CAZyme 的组成直接决定了菌群的代谢能力。比如产短链脂肪酸（SCFA）的菌通常富含 GH 家族的酶。你做 T2D 研究时，菌群的 CAZyme 谱变化也是一个重要指标。

04 VFDB + CARD/ResFinder — 毒力因子与耐药基因功能注释 ▶

VFDB 2025 — 毒力因子数据库

VFDB（Virulence Factor DataBase）收集致病菌的毒力因子。白话说：毒力因子就是"细菌用来攻击宿主的武器"。

属性	详情
覆盖范围	32 个属的医学重要致病菌
分类体系	14 大类 + 100+ 亚类
2025 新增	902 种抗毒力化合物（90 类，17 超类）
数据集	核心数据集（实验验证）+ 全数据集（预测）
网址	mgc.ac.cn/VFs/

# 用 DIAMOND 比对 VFDB 核心数据集 # 先下载 VFDB_setA_pro.fas（核心蛋白序列） diamond makedb --in VFDB_setA_pro.fas --db vfdb # 比对查询序列 diamond blastp \ --db vfdb \ --query proteins.faa \ --out vfdb_hits.tsv \ --outfmt 6 \ --evalue 1e-5 \ --id 80 \ --query-cover 70

📖 参数逐行讲解

diamond makedb --in VFDB_setA_pro.fas --db vfdb 用 DIAMOND 把 VFDB 核心蛋白序列构建成索引数据库（比 BLAST 建库快很多）

diamond blastp 运行蛋白-蛋白比对（类似 NCBI blastp，但快 100-1000 倍）

--db vfdb 指定刚才建好的 VFDB 数据库

--query proteins.faa 输入你要查询的蛋白序列文件

--out vfdb_hits.tsv 输出比对结果文件

--outfmt 6 输出格式为 BLAST 表格格式（制表符分隔，12 列：qseqid sseqid pident length 等）

--evalue 1e-5 E-value 阈值，只保留统计显著的比对结果（越小越严格，1e-5 是常用阈值）

--id 80 最低序列一致性 80%（白话：查询序列和数据库序列至少 80% 相同才算命中）

--query-cover 70 查询序列至少 70% 的长度被比对覆盖（防止只匹配到一小段就算命中）

CARD — 抗生素抗性基因综合数据库

CARD（Comprehensive Antibiotic Resistance Database）是最全面的抗性基因数据库，配套工具 RGI 可自动注释。

属性	详情（2025）
本体术语	8,582 个
参考序列	6,442 条
SNP 位点	4,480 个
检测模型	6,480 个 AMR 检测模型
发表文献	3,354 篇
耐药组预测	414 种病原体，172,216 个 WGS 组装
网址	card.mcmaster.ca

# 安装 RGI（Resistance Gene Identifier） conda install -c bioconda rgi # 下载 CARD 数据库 wget https://card.mcmaster.ca/latest/data tar -xvf data ./card.json # 加载数据库 rgi load --card_json card.json --local # 对基因组预测抗性基因 rgi main \ --input_sequence genome.fasta \ --output_file rgi_output \ --local \ --clean \ --num_threads 4

📖 参数逐行讲解

conda install -c bioconda rgi 从 bioconda 频道安装 RGI 工具（推荐用 conda，依赖比较复杂）

wget https://card.mcmaster.ca/latest/data 从 CARD 官网下载最新的数据库文件

tar -xvf data ./card.json 解压得到 card.json（CARD 数据库的 JSON 格式文件，包含所有抗性基因模型）

rgi load --card_json card.json --local 把数据库加载到 RGI 本地环境，--local 表示存在当前目录（不影响全局安装）

rgi main RGI 的核心分析命令，对输入序列做抗性基因预测

--input_sequence genome.fasta 输入基因组序列（也可以是蛋白序列或 contigs）

--output_file rgi_output 输出文件前缀（会生成 .txt 和 .json 两个结果文件）

--local 使用本地加载的数据库

--clean 运行结束后清理临时文件

--num_threads 4 使用 4 个线程并行处理

ResFinder 4.1

ResFinder 由丹麦 DTU 开发，侧重获得性耐药基因鉴定 + 表型预测。与 CARD 互补。

对比	CARD/RGI	ResFinder
侧重	全面（获得性 + 突变 + 内在抗性）	获得性耐药基因为主
注释方式	同源比对 + SNP 模型	BLAST + PointFinder（突变）
表型预测	有（基于 ARO）	有（针对特定菌种）
使用方式	命令行 RGI / 网页	网页为主 / 命令行可用
网址	card.mcmaster.ca	cge.cbs.dtu.dk/services/ResFinder/

追问"如何验证一个抗性基因是否真的有功能？"——答：(1) 生物信息学验证：检查序列完整性（是否有 start/stop codon）、是否在已知的基因簇中、比对 identity 和 coverage；(2) 实验验证：MIC（最小抑菌浓度）测定、基因克隆到敏感菌中验证表型；(3) 数据库交叉验证：同时用 CARD 和 ResFinder 看是否一致。

05 NCBI 系列 — SRA / GEO / RefSeq / GenBank 公共数据 ▶

NCBI SRA — 原始测序数据存档

SRA（Sequence Read Archive）是全球最大的测序原始数据库。白话说：全世界做测序产生的原始 fastq 数据都存在这里。

属性	详情（2025）
总数据量	47+ PB（petabytes）
公共文件数	31,000,000+
云存储	AWS + Google Cloud + AWS Open Data
增长速度	每年约 38-47% 增长
ID 体系	SRR（Run）→ SRS（Sample）→ SRP（Project）→ SRA（Archive）

# 从 SRA 下载数据的标准流程 # 1. 用 prefetch 下载 SRA 文件（更稳定） prefetch SRR12345678 # 2. 转换为 fastq fasterq-dump SRR12345678 \ --split-3 \ --threads 4 \ --outdir ./fastq/ # 3. 压缩节省空间 gzip ./fastq/SRR12345678_1.fastq gzip ./fastq/SRR12345678_2.fastq # 批量下载（从 accession list 文件） prefetch --option-file SRR_Acc_List.txt

📖 参数逐行讲解

prefetch SRR12345678 从 NCBI SRA 下载 .sra 格式的原始文件，支持断点续传，比直接 wget 更稳定

fasterq-dump SRR12345678 把 .sra 文件转换为 .fastq 文件（比老版 fastq-dump 快 10 倍以上）

--split-3 自动分离双端测序的 reads：_1.fastq（正向）、_2.fastq（反向），如有未配对的 reads 放到第三个文件

--threads 4 用 4 个线程加速转换

--outdir ./fastq/ 指定输出目录

gzip 压缩 fastq 文件节省磁盘空间（一般能压缩 3-4 倍）

prefetch --option-file SRR_Acc_List.txt 批量下载：把所有 SRR 编号写在文本文件里（每行一个），一次性下载

NCBI GEO — 基因表达数据库

GEO（Gene Expression Omnibus）存放芯片和转录组数据。和 SRA 不同：SRA 存原始 reads，GEO 存处理后的表达矩阵。

# GEO 数据下载（以 GSE 编号为例） # 方法1：直接下载表达矩阵 wget "https://ftp.ncbi.nlm.nih.gov/geo/series/GSE100nnn/GSE100000/matrix/" # 方法2：用 R 的 GEOquery 包 # library(GEOquery) # gse <- getGEO("GSE100000")

📖 参数逐行讲解

wget "https://ftp.ncbi.nlm.nih.gov/geo/series/..." 直接从 NCBI FTP 下载 GEO 数据的表达矩阵文件（通常是 .txt.gz 格式）

URL 中 GSE100nnn 是千位分组目录，GSE100000 是具体数据集编号，matrix/ 目录下放处理好的表达矩阵

library(GEOquery) R 语言的 GEOquery 包，专门用来下载和解析 GEO 数据

getGEO("GSE100000") 自动下载指定 GSE 编号的数据集，返回 ExpressionSet 对象（包含表达矩阵 + 样本信息 + 平台信息）

RefSeq vs GenBank

对比维度	RefSeq	GenBank
定位	精选参考序列（"教科书"）	通用序列仓库（"图书馆"）
质量控制	NCBI 审核 + 自动化质控	提交即收录，不做筛选
冗余度	非冗余（每个基因/基因组一条代表序列）	冗余（同一基因可有多条提交）
ID 前缀	NM_（mRNA）、NP_（蛋白）、NC_（染色体）	无固定前缀
更新	持续更新，版本号递增	提交后一般不变
适用场景	比对参考、注释标准	数据提交、检索发现

追问"SRA 和 ENA 有什么区别？"——SRA 是 NCBI（美国）的测序数据库，ENA 是 EBI（欧洲）的。两者通过 INSDC 联盟（含日本 DDBJ）实时同步数据。内容基本一样，选哪个看网速。国内下 ENA 有时更快（aspera 通道），做项目时看文献用的是哪个 accession 就从哪下。

NCBI Taxonomy

NCBI 的分类学数据库，每个物种有一个 TaxID。Kraken2、MetaPhlAn 等工具都依赖 NCBI Taxonomy。

# 查询 TaxID # 网页：ncbi.nlm.nih.gov/taxonomy # 命令行：用 datasets 工具 datasets summary taxonomy taxon "Escherichia coli" # Kraken2 数据库建库时会自动下载 taxonomy kraken2-build --download-taxonomy --db kraken2_db/

📖 参数逐行讲解

datasets summary taxonomy taxon "Escherichia coli" 用 NCBI datasets 工具查询物种的 TaxID 和分类信息（datasets 是 NCBI 新一代命令行工具）

"Escherichia coli" 物种名要用引号括起来（因为有空格），也可以直接用 TaxID 数字

kraken2-build --download-taxonomy 下载 NCBI 分类学数据库（names.dmp + nodes.dmp 等文件），Kraken2 建库时必需

--db kraken2_db/ 指定 Kraken2 数据库的存放目录

06 微生物组专用数据库 — GMrepo / HMP / IMG/M / MGnify 专用数据 ▶

GMrepo v3 — 肠道微生物组数据库

GMrepo 是专门收集和整合人类肠道微生物组数据的数据库。白话说：你想找"某个疾病的肠道菌群数据"，来 GMrepo 查就对了。这也是你毕设数据的来源之一。

属性	GMrepo v1	GMrepo v2	GMrepo v3（最新）
项目数	253	353	890
样本数	58,903	71,642	118,965
疾病数	92	133	302
数据类型	-	-	87,048 (16S) + 31,917 (WGS)
新功能	-	疾病标记物	MCI 指数（标记物一致性指数）

# GMrepo 使用方式 # 1. 网页端：gmrepo.humangut.info # - 按疾病搜索：如搜 "Type 2 Diabetes" # - 查看关联的项目和样本列表 # - 下载物种丰度数据 # 2. API 查询（Python 示例） # import requests # resp = requests.get("https://gmrepo.humangut.info/api/get_project_list", # params={"disease": "Type 2 Diabetes"}) # projects = resp.json() # 3. 拿到 SRA accession 后，去 SRA 下载原始数据 prefetch SRR_ACCESSION fasterq-dump SRR_ACCESSION --split-3

📖 参数逐行讲解

GMrepo 主要通过网页端使用：在 gmrepo.humangut.info 搜索疾病名（如 "Type 2 Diabetes"），查看关联项目和样本

requests.get("https://gmrepo.humangut.info/api/get_project_list") Python 调用 GMrepo API 查询项目列表

params={"disease": "Type 2 Diabetes"} 按疾病名过滤，返回所有 T2D 相关的公共项目信息

prefetch SRR_ACCESSION 拿到 GMrepo 里的 SRA 编号后，用 SRA Toolkit 下载原始数据

fasterq-dump SRR_ACCESSION --split-3 转成 fastq 格式，--split-3 自动分离双端 reads

完整流程：GMrepo 找项目 → 获取 SRR 编号 → prefetch 下载 → fasterq-dump 转格式 → 进入分析流程

HMP — 人类微生物组计划

HMP（Human Microbiome Project）是 NIH 资助的大型计划，分两期：HMP1（基线调查）和 iHMP/HMP2（纵向追踪）。

属性	HMP1（2007-2012）	iHMP/HMP2（2014-2016）
目标	建立健康人体微生物组基线	追踪疾病相关的微生物组变化
采样部位	5 大部位：口腔、鼻腔、皮肤、肠道、泌尿生殖道	重点：IBD、T2D、早产
受试者	~300 名健康人	~1,000+ 受试者（含患者）
数据类型	16S + WGS	多组学（16S、WGS、转录组、代谢组等）
网址	hmpdacc.org

IMG/M — JGI 宏基因组数据库

IMG/M（Integrated Microbial Genomes & Microbiomes）由 DOE JGI 维护，提供宏基因组数据的注释和比较分析工具。

# IMG/M 使用方式（网页为主） # 网址：img.jgi.doe.gov # 功能： # - 搜索已注释的宏基因组数据 # - 比较不同环境/样本的基因组特征 # - 下载基因组和注释数据 # - 提交自己的数据进行注释

📖 参数逐行讲解

IMG/M 是纯网页端平台，网址 img.jgi.doe.gov，需要注册 JGI 账号才能使用

核心功能：搜索已注释的宏基因组数据集、比较不同环境/样本的基因组特征、下载注释结果

适合场景：你想找某个特定环境（如土壤、海洋、肠道）的宏基因组注释数据，或者想把自己的数据提交到 JGI 做标准化注释

和 MGnify 的区别：IMG/M 由美国 JGI 维护，侧重基因组注释；MGnify 由欧洲 EBI 维护，侧重标准化分析流程

EBI MGnify — 宏基因组分析平台

MGnify（原 EBI Metagenomics）是欧洲的宏基因组分析平台，提供标准化的分析流程和可视化。

属性	详情
定位	宏基因组/扩增子数据的标准化分析平台
分析流程	质控 → 物种分类 → 功能注释（自动化）
优势	免费、标准化、可复现、结果可视化
网址	ebi.ac.uk/metagenomics/

追问"你毕设的数据是从哪来的？GMrepo 怎么用？"——答：我毕设研究 T2D（2型糖尿病）肠道菌群，数据来源是公共数据库。具体流程：(1) 在 GMrepo 上搜索 "Type 2 Diabetes" 相关项目；(2) 筛选合适的项目（看样本量、数据类型、人群信息）；(3) 获取 SRA accession 列表；(4) 用 prefetch + fasterq-dump 从 SRA 下载原始 fastq 数据；(5) 然后走我们的标准分析流程（质控 → 去宿主 → 物种注释 → 功能注释 → 差异分析 → 机器学习建模）。

Q&A 面试高频问答 — 数据库相关面试必备 ▶

SILVA 和 GTDB 怎么选？什么时候用哪个？

看你的数据类型：
- 如果你做的是 16S 扩增子测序（amplicon），用 SILVA。因为 SILVA 提供 rRNA 参考序列和 QIIME2 预训练分类器，是扩增子分析的标准。
- 如果你做的是 宏基因组测序，拼装出了 MAGs（宏基因组组装基因组），用 GTDB + GTDB-Tk 分类。全基因组信息比单个 16S 基因分辨率高很多。
- 两者不冲突：同一个项目里可以同时用。16S 数据用 SILVA 注释，MAGs 用 GTDB 注释。
- 注意 GTDB 的分类命名和传统不同（比如 Clostridium 被拆成多个属），写论文时要说明用的是哪套分类系统。

KEGG 收费了怎么办？有什么替代方案？

首先澄清：KEGG 没有完全收费。
- KEGG REST API（rest.kegg.jp）仍然免费，可以查询单个基因/通路信息。
- 收费的是 FTP 批量下载整个数据库（学术订阅 ~$2,000/年）。

免费替代方案：
1. MetaCyc：HUMAnN3 默认使用的代谢通路数据库，完全免费，覆盖 2,800+ 条通路。
2. eggNOG-mapper：可以免费做 COG + KO 双注释（KO 就是 KEGG 的功能编号），相当于"曲线救国"。
3. Reactome：侧重人类和模式生物的信号通路，免费开源。
4. KEGG 缓存策略：用 API 查一次结果缓存到本地，后续分析复用。

怎么从 SRA 下载数据？完整流程是什么？

标准三步法：
1. 找数据：在 NCBI SRA 网站搜索（或从论文/GMrepo 获取 accession），得到 SRR 编号。
2. 下载：用 prefetch SRR12345678 下载 .sra 文件（比直接 wget 更稳定，支持断点续传）。
3. 转格式：用 fasterq-dump SRR12345678 --split-3 把 .sra 转成 .fastq 文件。--split-3 会自动分离双端 reads。

加分回答：
- 批量下载：准备一个 accession list 文件，用 prefetch --option-file list.txt
- 加速下载：用 Aspera（ascp）比 HTTP 快 10 倍以上
- 云端分析：SRA 数据已托管在 AWS/GCP，可以直接在云上分析不用下载
- ENA 替代：有时 ENA（欧洲）的下载速度比 NCBI 更快

你用过哪些数据库？举例说明在你的项目中怎么用的。

以我的 T2D 肠道菌群毕设项目为例：

1. GMrepo：从 GMrepo 检索 2 型糖尿病相关的公共肠道菌群项目，筛选样本量足够、有健康对照的数据集。
2. NCBI SRA：根据 GMrepo 提供的 accession，用 prefetch + fasterq-dump 下载原始 fastq 数据。
3. SILVA 138.2：做 16S 扩增子分析时，用 SILVA 的 QIIME2 分类器进行物种注释。
4. KEGG：用 PICRUSt2 / HUMAnN3 做功能预测，把物种丰度映射到 KEGG 通路上，分析 T2D 组和健康组的代谢通路差异。
5. NCBI Taxonomy：统一不同来源数据的物种命名。

回答策略：先说数据库名，再说具体用在哪一步，最后说为什么选它。面试官想听的是你"理解每个数据库的定位和使用场景"，不是背数据库列表。

VFDB 和 CARD 分别用在什么场景？

简单区分：
- VFDB：研究"细菌怎么致病"——毒力因子是致病菌攻击宿主的分子武器（粘附素、毒素、侵袭因子等）。
- CARD：研究"细菌怎么耐药"——抗性基因让细菌能抵抗抗生素。

应用场景举例：
- 临床样本里发现高丰度的致病菌 → 用 VFDB 看它携带了哪些毒力因子，评估致病风险。
- 发现高丰度的耐药菌 → 用 CARD/RGI 看它携带了哪些耐药基因，指导用药方案。
- 宏基因组研究中通常两个都用，全面评估菌群的致病性和耐药性。

Greengenes2 和 SILVA 有什么区别？

核心区别：
- SILVA：纯基于 rRNA 序列的分类，16S/18S/23S 都有。传统、稳定、覆盖全。
- Greengenes2：把 16S 数据和全基因组数据统一到一棵参考树上。好处是 16S 扩增子和 shotgun 宏基因组的结果可以直接比较。

什么时候用 Greengenes2？
- 如果你的项目同时有 16S 和 shotgun 数据，想让两种方法的结果可比，用 Greengenes2。
- 如果只有 16S 数据，SILVA 和 Greengenes2 都行，SILVA 更成熟稳定。

数据库速查对照表

数据库	最新版本	主要用途	免费？	你用过？
SILVA	138.2	16S/18S rRNA 物种分类	是（CC-BY 4.0）	是
GTDB	R232 (2026.04)	全基因组物种分类	是	了解
Greengenes2	2024.09	统一 16S + WGS 分类	是	了解
KEGG	Release 118.0	代谢通路/功能注释	API 免费，批量收费	是
CAZy/dbCAN	dbCAN3 (HMMdb v14)	碳水化合物活性酶注释	是	了解
VFDB	2025	毒力因子注释	是	了解
CARD	2025 (6,442 seqs)	抗生素抗性基因	是	了解
ResFinder	4.1	获得性耐药基因鉴定	是	了解
NCBI SRA	持续更新 (47+ PB)	原始测序数据下载	是	是
NCBI GEO	持续更新	基因表达数据	是	了解
GMrepo	v3 (890 项目)	肠道微生物组公共数据	是	是
HMP	iHMP/HMP2	人类微生物组基线	是	了解
IMG/M	持续更新	宏基因组注释分析	是（注册）	了解
MGnify	持续更新	宏基因组标准化分析	是	了解
RefSeq	持续更新	精选参考基因组	是	是
GenBank	持续更新	通用序列数据库	是	是
UniProt	持续更新	蛋白质功能注释	是	了解

生信数据库大全 — 面试速查版 | 数据来源：各数据库官网 + 2025 年 Nucleic Acids Research 数据库专刊 | 最后更新：2025.05