生信数据库大全

微生物组研究常用数据库速查 — 面试必备知识点

数据库分类总览

微生物组研究涉及的数据库大致分为 4 大类,每类解决不同的问题。面试时能说清"你用了什么数据库、为什么用、怎么用"是加分项。

一、微生物参考库("谁在那里?")

SILVA 138.2

16S/18S/23S rRNA 参考数据库,SSU 9,469,070 条序列。QIIME2 标准分类器。

16SrRNA三域生命

GTDB R232

基因组分类学数据库,901,341 个基因组,199,923 个物种簇。基于 ANI 的全基因组分类。

基因组ANI2026.04

Greengenes2 2024.09

统一 16S 与宏基因组数据的参考树,21,074,442 条序列。每 6 个月更新。

16SWGS统一分类

二、功能注释库("它们在干什么?")

KEGG

代谢通路数据库,576 条参考通路。KO → Module → Pathway 三级结构。

代谢通路KO收费

COG / eggNOG

直系同源基因簇,eggNOG-mapper 做功能注释。免费替代 KEGG 的选择之一。

功能分类免费

CAZy / dbCAN3

碳水化合物活性酶数据库,505 个 CAZyme 家族,HMMdb v14。

碳水化合物GH/GT/PL

VFDB 2025

毒力因子数据库,32 个属,14 大类毒力因子。新增 902 种抗毒力化合物。

毒力因子致病性

CARD / ResFinder

抗生素抗性基因数据库。CARD: 6,442 条参考序列,6,480 个检测模型。ResFinder 4.1。

耐药基因RGI

三、公共数据库("数据从哪来?")

NCBI SRA

全球最大测序数据存档,47+ PB 数据量,31,000,000+ 公共文件。

原始数据fastq

NCBI GEO

基因表达数据库,存放芯片和转录组数据。

表达谱芯片

GMrepo v3

肠道微生物组数据库,890 项目,118,965 样本,302 种疾病。

肠道菌群疾病关联

HMP

人类微生物组计划,包含人体 5 大部位的微生物组数据。

人体微生物组

IMG/M

JGI 宏基因组数据平台,提供基因组注释和比较基因组学工具。

宏基因组JGI

ENA / MGnify

欧洲核酸档案 + EBI 宏基因组分析平台。SRA 的欧洲镜像。

欧洲宏基因组分析

四、基因组库("参考基因组在哪?")

RefSeq

NCBI 精选参考序列数据库,经过人工审核的高质量基因组。

参考基因组精选

GenBank

NCBI 通用序列数据库,接受所有提交,未经精选。与 RefSeq 互补。

序列提交全量

UniProt

蛋白质序列与功能数据库。Swiss-Prot(精选)+ TrEMBL(自动注释)。

蛋白质功能注释
01 SILVA vs GTDB — 物种分类的两大标准 参考库

SILVA 138.2 — rRNA 参考数据库

SILVA 是最权威的 rRNA 基因参考数据库,覆盖细菌、古菌、真核三域生命。白话说:做 16S 扩增子分析基本都要用 SILVA。

属性详情
当前版本138.2(维护更新,即将发布 144)
SSU(16S/18S)序列9,469,070 条
LSU(23S/28S)序列1,312,521 条
覆盖范围Bacteria + Archaea + Eukarya
分类策略基于 rRNA 基因序列比对的系统发育分类
数据格式FASTA、ARB、QIIME2 分类器
许可证CC-BY 4.0(自 138 版起)
网址arb-silva.de
# QIIME2 中使用 SILVA 138.2 做物种分类 qiime feature-classifier classify-sklearn \ --i-classifier silva-138.2-ssu-nr99-515f-806r-classifier.qza \ --i-reads rep-seqs.qza \ --o-classification taxonomy.qza # 下载 SILVA 预训练分类器(QIIME2 官网提供) wget https://data.qiime2.org/2024.5/common/silva-138-99-515-806-nb-classifier.qza
📖 参数逐行讲解
qiime feature-classifier classify-sklearn 用 QIIME2 的 sklearn 分类器给序列做物种注释
--i-classifier 输入预训练好的分类器文件(这里用 SILVA 138.2 针对 515F/806R 区域训练的)
--i-reads rep-seqs.qza 输入你的代表序列(去重后的 ASV/OTU 序列)
--o-classification taxonomy.qza 输出分类结果文件(每条序列对应一个物种注释)
wget 从 QIIME2 官方下载 SILVA 预训练分类器,515F-806R 是 V4 区引物范围,nr99 表示 99% 相似度聚类的非冗余集

GTDB R232 — 基因组分类学数据库

GTDB 用全基因组信息(120 个标记蛋白)做系统发育,比 16S 单基因分类更准。白话说:GTDB 是"用全基因组给微生物重新排族谱"。

属性详情
当前版本R11-RS232(2026 年 4 月发布)
细菌基因组878,998 个
古菌基因组22,343 个
总基因组901,341 个
物种簇199,923 个(细菌 189,801 + 古菌 10,122)
分类策略基于 ANI(平均核苷酸一致性)+ 120 个标记蛋白的系统发育
基因组来源分离株 + MAGs + SAGs
网址gtdb.ecogenomic.org
# 使用 GTDB-Tk 对 MAGs 进行分类 gtdbtk classify_wf \ --genome_dir ./bins/ \ --out_dir ./gtdbtk_output/ \ --extension fa \ --cpus 8 # 输出文件:gtdbtk.bac120.summary.tsv(细菌分类结果) # 输出文件:gtdbtk.ar53.summary.tsv(古菌分类结果)
📖 参数逐行讲解
gtdbtk classify_wf 运行 GTDB-Tk 的完整分类工作流(包括识别标记基因、比对、建树、分类)
--genome_dir ./bins/ 输入目录,放你拼装好的 MAGs(每个 bin 一个 fasta 文件)
--out_dir ./gtdbtk_output/ 输出目录,分类结果会写在这里
--extension fa 基因组文件的后缀名(也可以是 fna、fasta 等,和你文件实际后缀一致就行)
--cpus 8 使用 8 个 CPU 核心并行计算(GTDB-Tk 很吃内存,建议至少 64GB RAM)
输出两个关键文件:bac120.summary.tsv 是细菌分类结果(基于 120 个标记蛋白),ar53.summary.tsv 是古菌(基于 53 个标记蛋白)

对比表

对比维度SILVAGTDB
分类策略基于 rRNA 基因(单基因)基于全基因组(120/53 标记蛋白)
覆盖范围三域生命(含真核)仅 Bacteria + Archaea
输入数据16S/18S/23S 扩增子全基因组 / MAGs
典型用途QIIME2 扩增子分类MAG 分类(GTDB-Tk)
更新频率不定期(138.2 → 即将 144)约每年一次(R226 = 2025.04)
分类命名沿用传统分类基于基因组的新命名(拆分了很多传统属)
数据格式FASTA / ARB / QIIME2 classifierTSV / Newick tree / FASTA
面试常问"SILVA 和 GTDB 有什么区别?"——记住关键词:SILVA = rRNA 单基因分类,适合 16S 扩增子GTDB = 全基因组分类,适合 MAGs。两者不冲突,用在不同阶段。
追问"为什么 GTDB 把很多传统分类拆了?"——因为以前靠 16S 单基因分类分辨率有限,很多不同的菌被归到同一个属。GTDB 用全基因组信息发现它们差异很大(ANI < 95%),所以拆成不同的属/种。比如传统的 Clostridium 属在 GTDB 中被拆成了十几个属。
02 KEGG 通路数据库 — 代谢通路与功能注释 功能注释

KEGG 基本信息

KEGG(Kyoto Encyclopedia of Genes and Genomes)是最权威的代谢通路数据库。白话说:KEGG 就是"微生物在干什么活"的地图。

属性详情
参考通路数~576 条手工绘制的参考通路
通路分类7 大类:代谢、遗传信息、环境信息、细胞过程、有机体系统、人类疾病、药物开发
最新版本Release 118.0(2026 年 4 月)
许可学术免费查看,批量下载需付费订阅
网址kegg.jp

KEGG 层级结构

K number
(单个基因功能)
Module
(功能模块)
Pathway
(代谢通路)
Map
(通路地图)

KO(K number):一个基因的功能标签,如 K00844 = 己糖激酶
Module:一组协同工作的基因,如 M00001 = 糖酵解核心模块
Pathway:完整的代谢通路,如 ko00010 = 糖酵解/糖异生
Map:可视化的通路地图

常用命令

# KEGG API 查询(免费,但限速) # 查询某个 KO 编号的信息 curl https://rest.kegg.jp/get/ko:K00844 # 查询某条通路的基因列表 curl https://rest.kegg.jp/link/ko/pathway:ko00010 # 获取通路图(PNG 格式) curl https://rest.kegg.jp/get/ko00010/image > glycolysis.png
📖 参数逐行讲解
curl https://rest.kegg.jp/get/ko:K00844 查询 KO 编号 K00844(己糖激酶)的详细信息,包括基因名、功能描述、所属通路等
rest.kegg.jp 是 KEGG 的免费 REST API 地址,格式为 /操作/数据库:ID
/link/ko/pathway:ko00010 查询 ko00010 通路(糖酵解)包含的所有 KO 编号列表
/get/ko00010/image 下载 ko00010 通路的 PNG 图片,> glycolysis.png 把输出重定向保存为图片文件
常用 API 操作:get(获取条目)、link(查关联)、find(搜索)、list(列表)

HUMAnN3 + KEGG

# HUMAnN3 默认使用 UniRef90 + MetaCyc # 要映射到 KEGG,需要额外步骤: # 1. 先用 HUMAnN3 跑标准流程 humann --input sample.fastq.gz --output humann_out/ # 2. 用 humann_regroup_table 把 UniRef 映射到 KO humann_regroup_table \ --input humann_out/sample_genefamilies.tsv \ --groups uniref90_ko \ --output sample_ko.tsv # 3. 再归一化 humann_renorm_table \ --input sample_ko.tsv \ --units cpm \ --output sample_ko_cpm.tsv
📖 参数逐行讲解
humann --input sample.fastq.gz HUMAnN3 主命令,输入质控后的 fastq 文件(支持 gz 压缩)
--output humann_out/ 输出目录,会生成三个核心文件:genefamilies(基因家族丰度)、pathabundance(通路丰度)、pathcoverage(通路覆盖度)
humann_regroup_table 把 UniRef90 基因家族 ID 重新映射到其他分类体系
--groups uniref90_ko 映射关系:从 UniRef90 映射到 KEGG KO 编号(白话:把 HUMAnN3 的结果"翻译"成 KEGG 能懂的编号)
humann_renorm_table 对丰度表做归一化,消除测序深度差异的影响
--units cpm 归一化单位用 CPM(counts per million,每百万计数),也可以用 relab(相对丰度)
面试追问"KEGG 收费后怎么办?"——答:(1) MetaCyc(HUMAnN3 默认用的,免费开源);(2) Reactome(侧重人类通路);(3) eggNOG-mapper(COG/KO 双注释,免费);(4) KEGG API 仍然免费查询,只是批量下载收费。
KEGG 从 2011 年开始对 FTP 批量下载收费。但 KEGG REST API(rest.kegg.jp)仍然免费,只是有速率限制。学术论文中使用 KEGG 注释结果是允许的。
03 CAZy / dbCAN — 碳水化合物活性酶数据库 功能注释

CAZy 基本概念

CAZy(Carbohydrate-Active enZYmes)收集所有能合成、修饰、降解碳水化合物的酶。白话说:CAZy 就是研究"微生物怎么吃糖"的数据库。

CAZyme 六大类

缩写全称功能(白话)举例
GHGlycoside Hydrolases切糖链("剪刀")纤维素酶、淀粉酶
GTGlycosyl Transferases接糖链("胶水")合成多糖
PLPolysaccharide Lyases断糖链("斧头",通过消除反应)果胶裂解酶
CECarbohydrate Esterases去酯基修饰("去壳")木聚糖去乙酰化
AAAuxiliary Activities辅助氧化("助攻")木质素降解的辅助酶
CBMCarbohydrate-Binding Modules结合糖("抓手",不催化)帮酶定位到底物

dbCAN3 注释工具

dbCAN 是 CAZy 数据库的自动化注释工具。当前版本 dbCAN3,底层数据库 HMMdb v14(2025.08 更新),505 个 CAZyme 家族,4,098,879 条序列。

属性详情
工具版本dbCAN3 / run_dbcan v5
HMM 数据库HMMdb v14(875 个 HMM 模型)
CAZyme 家族数505 个
注释方法HMMER + DIAMOND + dbCAN-sub(三合一)
新功能底物预测(dbCAN-sub,53,411 个亚家族)
网址pro.unl.edu/dbCAN2/
# 安装 run_dbcan pip install dbcan # 下载数据库 dbcan_build --cpus 4 --db_dir db/ --clean # 对蛋白序列注释 CAZymes run_dbcan proteins.faa protein \ --db_dir db/ \ --out_dir dbcan_out/ \ --tools all # 输出文件:overview.txt(汇总三种方法的结果) # 推荐:至少 2/3 方法一致才算可信
📖 参数逐行讲解
pip install dbcan 安装 run_dbcan 工具(也可以用 conda 安装)
dbcan_build --cpus 4 --db_dir db/ --clean 下载并构建 dbCAN 数据库,--cpus 4 用 4 核加速,--db_dir 指定数据库存放位置,--clean 下载完清理临时文件
run_dbcan proteins.faa protein 对蛋白序列文件做 CAZyme 注释,第二个参数 protein 表示输入是蛋白序列(也可以是 prok 表示原核基因组、meta 表示宏基因组)
--db_dir db/ 指向之前下载的数据库目录
--out_dir dbcan_out/ 输出目录
--tools all 同时用三种方法注释:HMMER(隐马尔可夫模型)、DIAMOND(快速序列比对)、dbCAN-sub(底物预测)。至少 2/3 一致才可信
overview.txt 示例输出
Gene_ID EC# HMMER DIAMOND dbCAN-sub #Tools gene_001 3.2.1.4 GH5 GH5 GH5_4 3 gene_002 3.2.1.1 GH13 GH13_28 GH13_28 3 gene_003 - GT2 GT2 - 2
追问"为什么微生物组研究关注 CAZy?"——因为肠道微生物的核心功能就是降解人体无法消化的碳水化合物(膳食纤维、抗性淀粉)。CAZyme 的组成直接决定了菌群的代谢能力。比如产短链脂肪酸(SCFA)的菌通常富含 GH 家族的酶。你做 T2D 研究时,菌群的 CAZyme 谱变化也是一个重要指标。
04 VFDB + CARD/ResFinder — 毒力因子与耐药基因 功能注释

VFDB 2025 — 毒力因子数据库

VFDB(Virulence Factor DataBase)收集致病菌的毒力因子。白话说:毒力因子就是"细菌用来攻击宿主的武器"。

属性详情
覆盖范围32 个属的医学重要致病菌
分类体系14 大类 + 100+ 亚类
2025 新增902 种抗毒力化合物(90 类,17 超类)
数据集核心数据集(实验验证)+ 全数据集(预测)
网址mgc.ac.cn/VFs/
# 用 DIAMOND 比对 VFDB 核心数据集 # 先下载 VFDB_setA_pro.fas(核心蛋白序列) diamond makedb --in VFDB_setA_pro.fas --db vfdb # 比对查询序列 diamond blastp \ --db vfdb \ --query proteins.faa \ --out vfdb_hits.tsv \ --outfmt 6 \ --evalue 1e-5 \ --id 80 \ --query-cover 70
📖 参数逐行讲解
diamond makedb --in VFDB_setA_pro.fas --db vfdb 用 DIAMOND 把 VFDB 核心蛋白序列构建成索引数据库(比 BLAST 建库快很多)
diamond blastp 运行蛋白-蛋白比对(类似 NCBI blastp,但快 100-1000 倍)
--db vfdb 指定刚才建好的 VFDB 数据库
--query proteins.faa 输入你要查询的蛋白序列文件
--out vfdb_hits.tsv 输出比对结果文件
--outfmt 6 输出格式为 BLAST 表格格式(制表符分隔,12 列:qseqid sseqid pident length 等)
--evalue 1e-5 E-value 阈值,只保留统计显著的比对结果(越小越严格,1e-5 是常用阈值)
--id 80 最低序列一致性 80%(白话:查询序列和数据库序列至少 80% 相同才算命中)
--query-cover 70 查询序列至少 70% 的长度被比对覆盖(防止只匹配到一小段就算命中)

CARD — 抗生素抗性基因综合数据库

CARD(Comprehensive Antibiotic Resistance Database)是最全面的抗性基因数据库,配套工具 RGI 可自动注释。

属性详情(2025)
本体术语8,582 个
参考序列6,442 条
SNP 位点4,480 个
检测模型6,480 个 AMR 检测模型
发表文献3,354 篇
耐药组预测414 种病原体,172,216 个 WGS 组装
网址card.mcmaster.ca
# 安装 RGI(Resistance Gene Identifier) conda install -c bioconda rgi # 下载 CARD 数据库 wget https://card.mcmaster.ca/latest/data tar -xvf data ./card.json # 加载数据库 rgi load --card_json card.json --local # 对基因组预测抗性基因 rgi main \ --input_sequence genome.fasta \ --output_file rgi_output \ --local \ --clean \ --num_threads 4
📖 参数逐行讲解
conda install -c bioconda rgi 从 bioconda 频道安装 RGI 工具(推荐用 conda,依赖比较复杂)
wget https://card.mcmaster.ca/latest/data 从 CARD 官网下载最新的数据库文件
tar -xvf data ./card.json 解压得到 card.json(CARD 数据库的 JSON 格式文件,包含所有抗性基因模型)
rgi load --card_json card.json --local 把数据库加载到 RGI 本地环境,--local 表示存在当前目录(不影响全局安装)
rgi main RGI 的核心分析命令,对输入序列做抗性基因预测
--input_sequence genome.fasta 输入基因组序列(也可以是蛋白序列或 contigs)
--output_file rgi_output 输出文件前缀(会生成 .txt 和 .json 两个结果文件)
--local 使用本地加载的数据库
--clean 运行结束后清理临时文件
--num_threads 4 使用 4 个线程并行处理

ResFinder 4.1

ResFinder 由丹麦 DTU 开发,侧重获得性耐药基因鉴定 + 表型预测。与 CARD 互补。

对比CARD/RGIResFinder
侧重全面(获得性 + 突变 + 内在抗性)获得性耐药基因为主
注释方式同源比对 + SNP 模型BLAST + PointFinder(突变)
表型预测有(基于 ARO)有(针对特定菌种)
使用方式命令行 RGI / 网页网页为主 / 命令行可用
网址card.mcmaster.cacge.cbs.dtu.dk/services/ResFinder/
追问"如何验证一个抗性基因是否真的有功能?"——答:(1) 生物信息学验证:检查序列完整性(是否有 start/stop codon)、是否在已知的基因簇中、比对 identity 和 coverage;(2) 实验验证:MIC(最小抑菌浓度)测定、基因克隆到敏感菌中验证表型;(3) 数据库交叉验证:同时用 CARD 和 ResFinder 看是否一致。
05 NCBI 系列 — SRA / GEO / RefSeq / GenBank 公共数据

NCBI SRA — 原始测序数据存档

SRA(Sequence Read Archive)是全球最大的测序原始数据库。白话说:全世界做测序产生的原始 fastq 数据都存在这里。

属性详情(2025)
总数据量47+ PB(petabytes)
公共文件数31,000,000+
云存储AWS + Google Cloud + AWS Open Data
增长速度每年约 38-47% 增长
ID 体系SRR(Run)→ SRS(Sample)→ SRP(Project)→ SRA(Archive)
# 从 SRA 下载数据的标准流程 # 1. 用 prefetch 下载 SRA 文件(更稳定) prefetch SRR12345678 # 2. 转换为 fastq fasterq-dump SRR12345678 \ --split-3 \ --threads 4 \ --outdir ./fastq/ # 3. 压缩节省空间 gzip ./fastq/SRR12345678_1.fastq gzip ./fastq/SRR12345678_2.fastq # 批量下载(从 accession list 文件) prefetch --option-file SRR_Acc_List.txt
📖 参数逐行讲解
prefetch SRR12345678 从 NCBI SRA 下载 .sra 格式的原始文件,支持断点续传,比直接 wget 更稳定
fasterq-dump SRR12345678 把 .sra 文件转换为 .fastq 文件(比老版 fastq-dump 快 10 倍以上)
--split-3 自动分离双端测序的 reads:_1.fastq(正向)、_2.fastq(反向),如有未配对的 reads 放到第三个文件
--threads 4 用 4 个线程加速转换
--outdir ./fastq/ 指定输出目录
gzip 压缩 fastq 文件节省磁盘空间(一般能压缩 3-4 倍)
prefetch --option-file SRR_Acc_List.txt 批量下载:把所有 SRR 编号写在文本文件里(每行一个),一次性下载

NCBI GEO — 基因表达数据库

GEO(Gene Expression Omnibus)存放芯片和转录组数据。和 SRA 不同:SRA 存原始 reads,GEO 存处理后的表达矩阵。

# GEO 数据下载(以 GSE 编号为例) # 方法1:直接下载表达矩阵 wget "https://ftp.ncbi.nlm.nih.gov/geo/series/GSE100nnn/GSE100000/matrix/" # 方法2:用 R 的 GEOquery 包 # library(GEOquery) # gse <- getGEO("GSE100000")
📖 参数逐行讲解
wget "https://ftp.ncbi.nlm.nih.gov/geo/series/..." 直接从 NCBI FTP 下载 GEO 数据的表达矩阵文件(通常是 .txt.gz 格式)
URL 中 GSE100nnn 是千位分组目录,GSE100000 是具体数据集编号,matrix/ 目录下放处理好的表达矩阵
library(GEOquery) R 语言的 GEOquery 包,专门用来下载和解析 GEO 数据
getGEO("GSE100000") 自动下载指定 GSE 编号的数据集,返回 ExpressionSet 对象(包含表达矩阵 + 样本信息 + 平台信息)

RefSeq vs GenBank

对比维度RefSeqGenBank
定位精选参考序列("教科书")通用序列仓库("图书馆")
质量控制NCBI 审核 + 自动化质控提交即收录,不做筛选
冗余度非冗余(每个基因/基因组一条代表序列)冗余(同一基因可有多条提交)
ID 前缀NM_(mRNA)、NP_(蛋白)、NC_(染色体)无固定前缀
更新持续更新,版本号递增提交后一般不变
适用场景比对参考、注释标准数据提交、检索发现
追问"SRA 和 ENA 有什么区别?"——SRA 是 NCBI(美国)的测序数据库,ENA 是 EBI(欧洲)的。两者通过 INSDC 联盟(含日本 DDBJ)实时同步数据。内容基本一样,选哪个看网速。国内下 ENA 有时更快(aspera 通道),做项目时看文献用的是哪个 accession 就从哪下。

NCBI Taxonomy

NCBI 的分类学数据库,每个物种有一个 TaxID。Kraken2、MetaPhlAn 等工具都依赖 NCBI Taxonomy。

# 查询 TaxID # 网页:ncbi.nlm.nih.gov/taxonomy # 命令行:用 datasets 工具 datasets summary taxonomy taxon "Escherichia coli" # Kraken2 数据库建库时会自动下载 taxonomy kraken2-build --download-taxonomy --db kraken2_db/
📖 参数逐行讲解
datasets summary taxonomy taxon "Escherichia coli" 用 NCBI datasets 工具查询物种的 TaxID 和分类信息(datasets 是 NCBI 新一代命令行工具)
"Escherichia coli" 物种名要用引号括起来(因为有空格),也可以直接用 TaxID 数字
kraken2-build --download-taxonomy 下载 NCBI 分类学数据库(names.dmp + nodes.dmp 等文件),Kraken2 建库时必需
--db kraken2_db/ 指定 Kraken2 数据库的存放目录
06 微生物组专用数据库 — GMrepo / HMP / IMG/M / MGnify 专用数据

GMrepo v3 — 肠道微生物组数据库

GMrepo 是专门收集和整合人类肠道微生物组数据的数据库。白话说:你想找"某个疾病的肠道菌群数据",来 GMrepo 查就对了。这也是你毕设数据的来源之一。

属性GMrepo v1GMrepo v2GMrepo v3(最新)
项目数253353890
样本数58,90371,642118,965
疾病数92133302
数据类型--87,048 (16S) + 31,917 (WGS)
新功能-疾病标记物MCI 指数(标记物一致性指数)
# GMrepo 使用方式 # 1. 网页端:gmrepo.humangut.info # - 按疾病搜索:如搜 "Type 2 Diabetes" # - 查看关联的项目和样本列表 # - 下载物种丰度数据 # 2. API 查询(Python 示例) # import requests # resp = requests.get("https://gmrepo.humangut.info/api/get_project_list", # params={"disease": "Type 2 Diabetes"}) # projects = resp.json() # 3. 拿到 SRA accession 后,去 SRA 下载原始数据 prefetch SRR_ACCESSION fasterq-dump SRR_ACCESSION --split-3
📖 参数逐行讲解
GMrepo 主要通过网页端使用:在 gmrepo.humangut.info 搜索疾病名(如 "Type 2 Diabetes"),查看关联项目和样本
requests.get("https://gmrepo.humangut.info/api/get_project_list") Python 调用 GMrepo API 查询项目列表
params={"disease": "Type 2 Diabetes"} 按疾病名过滤,返回所有 T2D 相关的公共项目信息
prefetch SRR_ACCESSION 拿到 GMrepo 里的 SRA 编号后,用 SRA Toolkit 下载原始数据
fasterq-dump SRR_ACCESSION --split-3 转成 fastq 格式,--split-3 自动分离双端 reads
完整流程:GMrepo 找项目 → 获取 SRR 编号 → prefetch 下载 → fasterq-dump 转格式 → 进入分析流程

HMP — 人类微生物组计划

HMP(Human Microbiome Project)是 NIH 资助的大型计划,分两期:HMP1(基线调查)和 iHMP/HMP2(纵向追踪)。

属性HMP1(2007-2012)iHMP/HMP2(2014-2016)
目标建立健康人体微生物组基线追踪疾病相关的微生物组变化
采样部位5 大部位:口腔、鼻腔、皮肤、肠道、泌尿生殖道重点:IBD、T2D、早产
受试者~300 名健康人~1,000+ 受试者(含患者)
数据类型16S + WGS多组学(16S、WGS、转录组、代谢组等)
网址hmpdacc.org

IMG/M — JGI 宏基因组数据库

IMG/M(Integrated Microbial Genomes & Microbiomes)由 DOE JGI 维护,提供宏基因组数据的注释和比较分析工具。

# IMG/M 使用方式(网页为主) # 网址:img.jgi.doe.gov # 功能: # - 搜索已注释的宏基因组数据 # - 比较不同环境/样本的基因组特征 # - 下载基因组和注释数据 # - 提交自己的数据进行注释
📖 参数逐行讲解
IMG/M 是纯网页端平台,网址 img.jgi.doe.gov,需要注册 JGI 账号才能使用
核心功能:搜索已注释的宏基因组数据集、比较不同环境/样本的基因组特征、下载注释结果
适合场景:你想找某个特定环境(如土壤、海洋、肠道)的宏基因组注释数据,或者想把自己的数据提交到 JGI 做标准化注释
和 MGnify 的区别:IMG/M 由美国 JGI 维护,侧重基因组注释;MGnify 由欧洲 EBI 维护,侧重标准化分析流程

EBI MGnify — 宏基因组分析平台

MGnify(原 EBI Metagenomics)是欧洲的宏基因组分析平台,提供标准化的分析流程和可视化。

属性详情
定位宏基因组/扩增子数据的标准化分析平台
分析流程质控 → 物种分类 → 功能注释(自动化)
优势免费、标准化、可复现、结果可视化
网址ebi.ac.uk/metagenomics/
追问"你毕设的数据是从哪来的?GMrepo 怎么用?"——答:我毕设研究 T2D(2型糖尿病)肠道菌群,数据来源是公共数据库。具体流程:(1) 在 GMrepo 上搜索 "Type 2 Diabetes" 相关项目;(2) 筛选合适的项目(看样本量、数据类型、人群信息);(3) 获取 SRA accession 列表;(4) 用 prefetch + fasterq-dump 从 SRA 下载原始 fastq 数据;(5) 然后走我们的标准分析流程(质控 → 去宿主 → 物种注释 → 功能注释 → 差异分析 → 机器学习建模)。
Q&A 面试高频问答 — 数据库相关 面试必备
SILVA 和 GTDB 怎么选?什么时候用哪个?
看你的数据类型:
- 如果你做的是 16S 扩增子测序(amplicon),用 SILVA。因为 SILVA 提供 rRNA 参考序列和 QIIME2 预训练分类器,是扩增子分析的标准。
- 如果你做的是 宏基因组测序,拼装出了 MAGs(宏基因组组装基因组),用 GTDB + GTDB-Tk 分类。全基因组信息比单个 16S 基因分辨率高很多。
- 两者不冲突:同一个项目里可以同时用。16S 数据用 SILVA 注释,MAGs 用 GTDB 注释。
- 注意 GTDB 的分类命名和传统不同(比如 Clostridium 被拆成多个属),写论文时要说明用的是哪套分类系统。
KEGG 收费了怎么办?有什么替代方案?
首先澄清:KEGG 没有完全收费。
- KEGG REST API(rest.kegg.jp)仍然免费,可以查询单个基因/通路信息。
- 收费的是 FTP 批量下载整个数据库(学术订阅 ~$2,000/年)。

免费替代方案:
1. MetaCyc:HUMAnN3 默认使用的代谢通路数据库,完全免费,覆盖 2,800+ 条通路。
2. eggNOG-mapper:可以免费做 COG + KO 双注释(KO 就是 KEGG 的功能编号),相当于"曲线救国"。
3. Reactome:侧重人类和模式生物的信号通路,免费开源。
4. KEGG 缓存策略:用 API 查一次结果缓存到本地,后续分析复用。
怎么从 SRA 下载数据?完整流程是什么?
标准三步法:
1. 找数据:在 NCBI SRA 网站搜索(或从论文/GMrepo 获取 accession),得到 SRR 编号。
2. 下载:用 prefetch SRR12345678 下载 .sra 文件(比直接 wget 更稳定,支持断点续传)。
3. 转格式:用 fasterq-dump SRR12345678 --split-3 把 .sra 转成 .fastq 文件。--split-3 会自动分离双端 reads。

加分回答:
- 批量下载:准备一个 accession list 文件,用 prefetch --option-file list.txt
- 加速下载:用 Aspera(ascp)比 HTTP 快 10 倍以上
- 云端分析:SRA 数据已托管在 AWS/GCP,可以直接在云上分析不用下载
- ENA 替代:有时 ENA(欧洲)的下载速度比 NCBI 更快
你用过哪些数据库?举例说明在你的项目中怎么用的。
以我的 T2D 肠道菌群毕设项目为例:

1. GMrepo:从 GMrepo 检索 2 型糖尿病相关的公共肠道菌群项目,筛选样本量足够、有健康对照的数据集。
2. NCBI SRA:根据 GMrepo 提供的 accession,用 prefetch + fasterq-dump 下载原始 fastq 数据。
3. SILVA 138.2:做 16S 扩增子分析时,用 SILVA 的 QIIME2 分类器进行物种注释。
4. KEGG:用 PICRUSt2 / HUMAnN3 做功能预测,把物种丰度映射到 KEGG 通路上,分析 T2D 组和健康组的代谢通路差异。
5. NCBI Taxonomy:统一不同来源数据的物种命名。

回答策略:先说数据库名,再说具体用在哪一步,最后说为什么选它。面试官想听的是你"理解每个数据库的定位和使用场景",不是背数据库列表。
VFDB 和 CARD 分别用在什么场景?
简单区分:
- VFDB:研究"细菌怎么致病"——毒力因子是致病菌攻击宿主的分子武器(粘附素、毒素、侵袭因子等)。
- CARD:研究"细菌怎么耐药"——抗性基因让细菌能抵抗抗生素。

应用场景举例:
- 临床样本里发现高丰度的致病菌 → 用 VFDB 看它携带了哪些毒力因子,评估致病风险。
- 发现高丰度的耐药菌 → 用 CARD/RGI 看它携带了哪些耐药基因,指导用药方案。
- 宏基因组研究中通常两个都用,全面评估菌群的致病性和耐药性。
Greengenes2 和 SILVA 有什么区别?
核心区别:
- SILVA:纯基于 rRNA 序列的分类,16S/18S/23S 都有。传统、稳定、覆盖全。
- Greengenes2:把 16S 数据和全基因组数据统一到一棵参考树上。好处是 16S 扩增子和 shotgun 宏基因组的结果可以直接比较。

什么时候用 Greengenes2?
- 如果你的项目同时有 16S 和 shotgun 数据,想让两种方法的结果可比,用 Greengenes2。
- 如果只有 16S 数据,SILVA 和 Greengenes2 都行,SILVA 更成熟稳定。

数据库速查对照表

数据库最新版本主要用途免费?你用过?
SILVA138.216S/18S rRNA 物种分类是(CC-BY 4.0)
GTDBR232 (2026.04)全基因组物种分类了解
Greengenes22024.09统一 16S + WGS 分类了解
KEGGRelease 118.0代谢通路/功能注释API 免费,批量收费
CAZy/dbCANdbCAN3 (HMMdb v14)碳水化合物活性酶注释了解
VFDB2025毒力因子注释了解
CARD2025 (6,442 seqs)抗生素抗性基因了解
ResFinder4.1获得性耐药基因鉴定了解
NCBI SRA持续更新 (47+ PB)原始测序数据下载
NCBI GEO持续更新基因表达数据了解
GMrepov3 (890 项目)肠道微生物组公共数据
HMPiHMP/HMP2人类微生物组基线了解
IMG/M持续更新宏基因组注释分析是(注册)了解
MGnify持续更新宏基因组标准化分析了解
RefSeq持续更新精选参考基因组
GenBank持续更新通用序列数据库
UniProt持续更新蛋白质功能注释了解

生信数据库大全 — 面试速查版 | 数据来源:各数据库官网 + 2025 年 Nucleic Acids Research 数据库专刊 | 最后更新:2025.05