微生物组研究常用数据库速查 — 面试必备知识点
微生物组研究涉及的数据库大致分为 4 大类,每类解决不同的问题。面试时能说清"你用了什么数据库、为什么用、怎么用"是加分项。
16S/18S/23S rRNA 参考数据库,SSU 9,469,070 条序列。QIIME2 标准分类器。
基因组分类学数据库,901,341 个基因组,199,923 个物种簇。基于 ANI 的全基因组分类。
统一 16S 与宏基因组数据的参考树,21,074,442 条序列。每 6 个月更新。
代谢通路数据库,576 条参考通路。KO → Module → Pathway 三级结构。
直系同源基因簇,eggNOG-mapper 做功能注释。免费替代 KEGG 的选择之一。
碳水化合物活性酶数据库,505 个 CAZyme 家族,HMMdb v14。
毒力因子数据库,32 个属,14 大类毒力因子。新增 902 种抗毒力化合物。
抗生素抗性基因数据库。CARD: 6,442 条参考序列,6,480 个检测模型。ResFinder 4.1。
全球最大测序数据存档,47+ PB 数据量,31,000,000+ 公共文件。
基因表达数据库,存放芯片和转录组数据。
肠道微生物组数据库,890 项目,118,965 样本,302 种疾病。
人类微生物组计划,包含人体 5 大部位的微生物组数据。
JGI 宏基因组数据平台,提供基因组注释和比较基因组学工具。
欧洲核酸档案 + EBI 宏基因组分析平台。SRA 的欧洲镜像。
NCBI 精选参考序列数据库,经过人工审核的高质量基因组。
NCBI 通用序列数据库,接受所有提交,未经精选。与 RefSeq 互补。
蛋白质序列与功能数据库。Swiss-Prot(精选)+ TrEMBL(自动注释)。
SILVA 是最权威的 rRNA 基因参考数据库,覆盖细菌、古菌、真核三域生命。白话说:做 16S 扩增子分析基本都要用 SILVA。
| 属性 | 详情 |
|---|---|
| 当前版本 | 138.2(维护更新,即将发布 144) |
| SSU(16S/18S)序列 | 9,469,070 条 |
| LSU(23S/28S)序列 | 1,312,521 条 |
| 覆盖范围 | Bacteria + Archaea + Eukarya |
| 分类策略 | 基于 rRNA 基因序列比对的系统发育分类 |
| 数据格式 | FASTA、ARB、QIIME2 分类器 |
| 许可证 | CC-BY 4.0(自 138 版起) |
| 网址 | arb-silva.de |
qiime feature-classifier classify-sklearn 用 QIIME2 的 sklearn 分类器给序列做物种注释--i-classifier 输入预训练好的分类器文件(这里用 SILVA 138.2 针对 515F/806R 区域训练的)--i-reads rep-seqs.qza 输入你的代表序列(去重后的 ASV/OTU 序列)--o-classification taxonomy.qza 输出分类结果文件(每条序列对应一个物种注释)wget 从 QIIME2 官方下载 SILVA 预训练分类器,515F-806R 是 V4 区引物范围,nr99 表示 99% 相似度聚类的非冗余集GTDB 用全基因组信息(120 个标记蛋白)做系统发育,比 16S 单基因分类更准。白话说:GTDB 是"用全基因组给微生物重新排族谱"。
| 属性 | 详情 |
|---|---|
| 当前版本 | R11-RS232(2026 年 4 月发布) |
| 细菌基因组 | 878,998 个 |
| 古菌基因组 | 22,343 个 |
| 总基因组 | 901,341 个 |
| 物种簇 | 199,923 个(细菌 189,801 + 古菌 10,122) |
| 分类策略 | 基于 ANI(平均核苷酸一致性)+ 120 个标记蛋白的系统发育 |
| 基因组来源 | 分离株 + MAGs + SAGs |
| 网址 | gtdb.ecogenomic.org |
gtdbtk classify_wf 运行 GTDB-Tk 的完整分类工作流(包括识别标记基因、比对、建树、分类)--genome_dir ./bins/ 输入目录,放你拼装好的 MAGs(每个 bin 一个 fasta 文件)--out_dir ./gtdbtk_output/ 输出目录,分类结果会写在这里--extension fa 基因组文件的后缀名(也可以是 fna、fasta 等,和你文件实际后缀一致就行)--cpus 8 使用 8 个 CPU 核心并行计算(GTDB-Tk 很吃内存,建议至少 64GB RAM)bac120.summary.tsv 是细菌分类结果(基于 120 个标记蛋白),ar53.summary.tsv 是古菌(基于 53 个标记蛋白)| 对比维度 | SILVA | GTDB |
|---|---|---|
| 分类策略 | 基于 rRNA 基因(单基因) | 基于全基因组(120/53 标记蛋白) |
| 覆盖范围 | 三域生命(含真核) | 仅 Bacteria + Archaea |
| 输入数据 | 16S/18S/23S 扩增子 | 全基因组 / MAGs |
| 典型用途 | QIIME2 扩增子分类 | MAG 分类(GTDB-Tk) |
| 更新频率 | 不定期(138.2 → 即将 144) | 约每年一次(R226 = 2025.04) |
| 分类命名 | 沿用传统分类 | 基于基因组的新命名(拆分了很多传统属) |
| 数据格式 | FASTA / ARB / QIIME2 classifier | TSV / Newick tree / FASTA |
KEGG(Kyoto Encyclopedia of Genes and Genomes)是最权威的代谢通路数据库。白话说:KEGG 就是"微生物在干什么活"的地图。
| 属性 | 详情 |
|---|---|
| 参考通路数 | ~576 条手工绘制的参考通路 |
| 通路分类 | 7 大类:代谢、遗传信息、环境信息、细胞过程、有机体系统、人类疾病、药物开发 |
| 最新版本 | Release 118.0(2026 年 4 月) |
| 许可 | 学术免费查看,批量下载需付费订阅 |
| 网址 | kegg.jp |
KO(K number):一个基因的功能标签,如 K00844 = 己糖激酶
Module:一组协同工作的基因,如 M00001 = 糖酵解核心模块
Pathway:完整的代谢通路,如 ko00010 = 糖酵解/糖异生
Map:可视化的通路地图
curl https://rest.kegg.jp/get/ko:K00844 查询 KO 编号 K00844(己糖激酶)的详细信息,包括基因名、功能描述、所属通路等rest.kegg.jp 是 KEGG 的免费 REST API 地址,格式为 /操作/数据库:ID/link/ko/pathway:ko00010 查询 ko00010 通路(糖酵解)包含的所有 KO 编号列表/get/ko00010/image 下载 ko00010 通路的 PNG 图片,> glycolysis.png 把输出重定向保存为图片文件get(获取条目)、link(查关联)、find(搜索)、list(列表)humann --input sample.fastq.gz HUMAnN3 主命令,输入质控后的 fastq 文件(支持 gz 压缩)--output humann_out/ 输出目录,会生成三个核心文件:genefamilies(基因家族丰度)、pathabundance(通路丰度)、pathcoverage(通路覆盖度)humann_regroup_table 把 UniRef90 基因家族 ID 重新映射到其他分类体系--groups uniref90_ko 映射关系:从 UniRef90 映射到 KEGG KO 编号(白话:把 HUMAnN3 的结果"翻译"成 KEGG 能懂的编号)humann_renorm_table 对丰度表做归一化,消除测序深度差异的影响--units cpm 归一化单位用 CPM(counts per million,每百万计数),也可以用 relab(相对丰度)CAZy(Carbohydrate-Active enZYmes)收集所有能合成、修饰、降解碳水化合物的酶。白话说:CAZy 就是研究"微生物怎么吃糖"的数据库。
| 缩写 | 全称 | 功能(白话) | 举例 |
|---|---|---|---|
| GH | Glycoside Hydrolases | 切糖链("剪刀") | 纤维素酶、淀粉酶 |
| GT | Glycosyl Transferases | 接糖链("胶水") | 合成多糖 |
| PL | Polysaccharide Lyases | 断糖链("斧头",通过消除反应) | 果胶裂解酶 |
| CE | Carbohydrate Esterases | 去酯基修饰("去壳") | 木聚糖去乙酰化 |
| AA | Auxiliary Activities | 辅助氧化("助攻") | 木质素降解的辅助酶 |
| CBM | Carbohydrate-Binding Modules | 结合糖("抓手",不催化) | 帮酶定位到底物 |
dbCAN 是 CAZy 数据库的自动化注释工具。当前版本 dbCAN3,底层数据库 HMMdb v14(2025.08 更新),505 个 CAZyme 家族,4,098,879 条序列。
| 属性 | 详情 |
|---|---|
| 工具版本 | dbCAN3 / run_dbcan v5 |
| HMM 数据库 | HMMdb v14(875 个 HMM 模型) |
| CAZyme 家族数 | 505 个 |
| 注释方法 | HMMER + DIAMOND + dbCAN-sub(三合一) |
| 新功能 | 底物预测(dbCAN-sub,53,411 个亚家族) |
| 网址 | pro.unl.edu/dbCAN2/ |
pip install dbcan 安装 run_dbcan 工具(也可以用 conda 安装)dbcan_build --cpus 4 --db_dir db/ --clean 下载并构建 dbCAN 数据库,--cpus 4 用 4 核加速,--db_dir 指定数据库存放位置,--clean 下载完清理临时文件run_dbcan proteins.faa protein 对蛋白序列文件做 CAZyme 注释,第二个参数 protein 表示输入是蛋白序列(也可以是 prok 表示原核基因组、meta 表示宏基因组)--db_dir db/ 指向之前下载的数据库目录--out_dir dbcan_out/ 输出目录--tools all 同时用三种方法注释:HMMER(隐马尔可夫模型)、DIAMOND(快速序列比对)、dbCAN-sub(底物预测)。至少 2/3 一致才可信VFDB(Virulence Factor DataBase)收集致病菌的毒力因子。白话说:毒力因子就是"细菌用来攻击宿主的武器"。
| 属性 | 详情 |
|---|---|
| 覆盖范围 | 32 个属的医学重要致病菌 |
| 分类体系 | 14 大类 + 100+ 亚类 |
| 2025 新增 | 902 种抗毒力化合物(90 类,17 超类) |
| 数据集 | 核心数据集(实验验证)+ 全数据集(预测) |
| 网址 | mgc.ac.cn/VFs/ |
diamond makedb --in VFDB_setA_pro.fas --db vfdb 用 DIAMOND 把 VFDB 核心蛋白序列构建成索引数据库(比 BLAST 建库快很多)diamond blastp 运行蛋白-蛋白比对(类似 NCBI blastp,但快 100-1000 倍)--db vfdb 指定刚才建好的 VFDB 数据库--query proteins.faa 输入你要查询的蛋白序列文件--out vfdb_hits.tsv 输出比对结果文件--outfmt 6 输出格式为 BLAST 表格格式(制表符分隔,12 列:qseqid sseqid pident length 等)--evalue 1e-5 E-value 阈值,只保留统计显著的比对结果(越小越严格,1e-5 是常用阈值)--id 80 最低序列一致性 80%(白话:查询序列和数据库序列至少 80% 相同才算命中)--query-cover 70 查询序列至少 70% 的长度被比对覆盖(防止只匹配到一小段就算命中)CARD(Comprehensive Antibiotic Resistance Database)是最全面的抗性基因数据库,配套工具 RGI 可自动注释。
| 属性 | 详情(2025) |
|---|---|
| 本体术语 | 8,582 个 |
| 参考序列 | 6,442 条 |
| SNP 位点 | 4,480 个 |
| 检测模型 | 6,480 个 AMR 检测模型 |
| 发表文献 | 3,354 篇 |
| 耐药组预测 | 414 种病原体,172,216 个 WGS 组装 |
| 网址 | card.mcmaster.ca |
conda install -c bioconda rgi 从 bioconda 频道安装 RGI 工具(推荐用 conda,依赖比较复杂)wget https://card.mcmaster.ca/latest/data 从 CARD 官网下载最新的数据库文件tar -xvf data ./card.json 解压得到 card.json(CARD 数据库的 JSON 格式文件,包含所有抗性基因模型)rgi load --card_json card.json --local 把数据库加载到 RGI 本地环境,--local 表示存在当前目录(不影响全局安装)rgi main RGI 的核心分析命令,对输入序列做抗性基因预测--input_sequence genome.fasta 输入基因组序列(也可以是蛋白序列或 contigs)--output_file rgi_output 输出文件前缀(会生成 .txt 和 .json 两个结果文件)--local 使用本地加载的数据库--clean 运行结束后清理临时文件--num_threads 4 使用 4 个线程并行处理ResFinder 由丹麦 DTU 开发,侧重获得性耐药基因鉴定 + 表型预测。与 CARD 互补。
| 对比 | CARD/RGI | ResFinder |
|---|---|---|
| 侧重 | 全面(获得性 + 突变 + 内在抗性) | 获得性耐药基因为主 |
| 注释方式 | 同源比对 + SNP 模型 | BLAST + PointFinder(突变) |
| 表型预测 | 有(基于 ARO) | 有(针对特定菌种) |
| 使用方式 | 命令行 RGI / 网页 | 网页为主 / 命令行可用 |
| 网址 | card.mcmaster.ca | cge.cbs.dtu.dk/services/ResFinder/ |
SRA(Sequence Read Archive)是全球最大的测序原始数据库。白话说:全世界做测序产生的原始 fastq 数据都存在这里。
| 属性 | 详情(2025) |
|---|---|
| 总数据量 | 47+ PB(petabytes) |
| 公共文件数 | 31,000,000+ |
| 云存储 | AWS + Google Cloud + AWS Open Data |
| 增长速度 | 每年约 38-47% 增长 |
| ID 体系 | SRR(Run)→ SRS(Sample)→ SRP(Project)→ SRA(Archive) |
prefetch SRR12345678 从 NCBI SRA 下载 .sra 格式的原始文件,支持断点续传,比直接 wget 更稳定fasterq-dump SRR12345678 把 .sra 文件转换为 .fastq 文件(比老版 fastq-dump 快 10 倍以上)--split-3 自动分离双端测序的 reads:_1.fastq(正向)、_2.fastq(反向),如有未配对的 reads 放到第三个文件--threads 4 用 4 个线程加速转换--outdir ./fastq/ 指定输出目录gzip 压缩 fastq 文件节省磁盘空间(一般能压缩 3-4 倍)prefetch --option-file SRR_Acc_List.txt 批量下载:把所有 SRR 编号写在文本文件里(每行一个),一次性下载GEO(Gene Expression Omnibus)存放芯片和转录组数据。和 SRA 不同:SRA 存原始 reads,GEO 存处理后的表达矩阵。
wget "https://ftp.ncbi.nlm.nih.gov/geo/series/..." 直接从 NCBI FTP 下载 GEO 数据的表达矩阵文件(通常是 .txt.gz 格式)GSE100nnn 是千位分组目录,GSE100000 是具体数据集编号,matrix/ 目录下放处理好的表达矩阵library(GEOquery) R 语言的 GEOquery 包,专门用来下载和解析 GEO 数据getGEO("GSE100000") 自动下载指定 GSE 编号的数据集,返回 ExpressionSet 对象(包含表达矩阵 + 样本信息 + 平台信息)| 对比维度 | RefSeq | GenBank |
|---|---|---|
| 定位 | 精选参考序列("教科书") | 通用序列仓库("图书馆") |
| 质量控制 | NCBI 审核 + 自动化质控 | 提交即收录,不做筛选 |
| 冗余度 | 非冗余(每个基因/基因组一条代表序列) | 冗余(同一基因可有多条提交) |
| ID 前缀 | NM_(mRNA)、NP_(蛋白)、NC_(染色体) | 无固定前缀 |
| 更新 | 持续更新,版本号递增 | 提交后一般不变 |
| 适用场景 | 比对参考、注释标准 | 数据提交、检索发现 |
NCBI 的分类学数据库,每个物种有一个 TaxID。Kraken2、MetaPhlAn 等工具都依赖 NCBI Taxonomy。
datasets summary taxonomy taxon "Escherichia coli" 用 NCBI datasets 工具查询物种的 TaxID 和分类信息(datasets 是 NCBI 新一代命令行工具)"Escherichia coli" 物种名要用引号括起来(因为有空格),也可以直接用 TaxID 数字kraken2-build --download-taxonomy 下载 NCBI 分类学数据库(names.dmp + nodes.dmp 等文件),Kraken2 建库时必需--db kraken2_db/ 指定 Kraken2 数据库的存放目录GMrepo 是专门收集和整合人类肠道微生物组数据的数据库。白话说:你想找"某个疾病的肠道菌群数据",来 GMrepo 查就对了。这也是你毕设数据的来源之一。
| 属性 | GMrepo v1 | GMrepo v2 | GMrepo v3(最新) |
|---|---|---|---|
| 项目数 | 253 | 353 | 890 |
| 样本数 | 58,903 | 71,642 | 118,965 |
| 疾病数 | 92 | 133 | 302 |
| 数据类型 | - | - | 87,048 (16S) + 31,917 (WGS) |
| 新功能 | - | 疾病标记物 | MCI 指数(标记物一致性指数) |
gmrepo.humangut.info 搜索疾病名(如 "Type 2 Diabetes"),查看关联项目和样本requests.get("https://gmrepo.humangut.info/api/get_project_list") Python 调用 GMrepo API 查询项目列表params={"disease": "Type 2 Diabetes"} 按疾病名过滤,返回所有 T2D 相关的公共项目信息prefetch SRR_ACCESSION 拿到 GMrepo 里的 SRA 编号后,用 SRA Toolkit 下载原始数据fasterq-dump SRR_ACCESSION --split-3 转成 fastq 格式,--split-3 自动分离双端 readsHMP(Human Microbiome Project)是 NIH 资助的大型计划,分两期:HMP1(基线调查)和 iHMP/HMP2(纵向追踪)。
| 属性 | HMP1(2007-2012) | iHMP/HMP2(2014-2016) |
|---|---|---|
| 目标 | 建立健康人体微生物组基线 | 追踪疾病相关的微生物组变化 |
| 采样部位 | 5 大部位:口腔、鼻腔、皮肤、肠道、泌尿生殖道 | 重点:IBD、T2D、早产 |
| 受试者 | ~300 名健康人 | ~1,000+ 受试者(含患者) |
| 数据类型 | 16S + WGS | 多组学(16S、WGS、转录组、代谢组等) |
| 网址 | hmpdacc.org | |
IMG/M(Integrated Microbial Genomes & Microbiomes)由 DOE JGI 维护,提供宏基因组数据的注释和比较分析工具。
img.jgi.doe.gov,需要注册 JGI 账号才能使用MGnify(原 EBI Metagenomics)是欧洲的宏基因组分析平台,提供标准化的分析流程和可视化。
| 属性 | 详情 |
|---|---|
| 定位 | 宏基因组/扩增子数据的标准化分析平台 |
| 分析流程 | 质控 → 物种分类 → 功能注释(自动化) |
| 优势 | 免费、标准化、可复现、结果可视化 |
| 网址 | ebi.ac.uk/metagenomics/ |
prefetch SRR12345678 下载 .sra 文件(比直接 wget 更稳定,支持断点续传)。fasterq-dump SRR12345678 --split-3 把 .sra 转成 .fastq 文件。--split-3 会自动分离双端 reads。prefetch --option-file list.txtascp)比 HTTP 快 10 倍以上| 数据库 | 最新版本 | 主要用途 | 免费? | 你用过? |
|---|---|---|---|---|
| SILVA | 138.2 | 16S/18S rRNA 物种分类 | 是(CC-BY 4.0) | 是 |
| GTDB | R232 (2026.04) | 全基因组物种分类 | 是 | 了解 |
| Greengenes2 | 2024.09 | 统一 16S + WGS 分类 | 是 | 了解 |
| KEGG | Release 118.0 | 代谢通路/功能注释 | API 免费,批量收费 | 是 |
| CAZy/dbCAN | dbCAN3 (HMMdb v14) | 碳水化合物活性酶注释 | 是 | 了解 |
| VFDB | 2025 | 毒力因子注释 | 是 | 了解 |
| CARD | 2025 (6,442 seqs) | 抗生素抗性基因 | 是 | 了解 |
| ResFinder | 4.1 | 获得性耐药基因鉴定 | 是 | 了解 |
| NCBI SRA | 持续更新 (47+ PB) | 原始测序数据下载 | 是 | 是 |
| NCBI GEO | 持续更新 | 基因表达数据 | 是 | 了解 |
| GMrepo | v3 (890 项目) | 肠道微生物组公共数据 | 是 | 是 |
| HMP | iHMP/HMP2 | 人类微生物组基线 | 是 | 了解 |
| IMG/M | 持续更新 | 宏基因组注释分析 | 是(注册) | 了解 |
| MGnify | 持续更新 | 宏基因组标准化分析 | 是 | 了解 |
| RefSeq | 持续更新 | 精选参考基因组 | 是 | 是 |
| GenBank | 持续更新 | 通用序列数据库 | 是 | 是 |
| UniProt | 持续更新 | 蛋白质功能注释 | 是 | 了解 |
生信数据库大全 — 面试速查版 | 数据来源:各数据库官网 + 2025 年 Nucleic Acids Research 数据库专刊 | 最后更新:2025.05