微生物数据库（Microbial Databases）¶

1. 一句话概述¶

常用公共数据库是生信分析的基础设施，掌握其用途和检索方法是分析工程师的基本功。

2. 核心知识点¶

2.1 常用数据库总览¶

数据库	全称	数据类型	主要用途	URL	检索技巧
GenBank	GenBank (NCBI)	核酸序列	提交/检索已发表的核酸序列	https://www.ncbi.nlm.nih.gov/genbank/	用Accession号精确检索，如MN908947
RefSeq	NCBI Reference Sequence	参考序列（基因组、转录本、蛋白质）	获取非冗余、有注释的参考序列	https://www.ncbi.nlm.nih.gov/refseq/	前缀区分类型：NC_(染色体)、NM_(mRNA)、NP_(蛋白质)
SRA	Sequence Read Archive	原始测序数据（FASTQ）	下载已发表项目的原始测序reads	https://www.ncbi.nlm.nih.gov/sra	用BioProject号（PRJNA...）批量检索
GEO	Gene Expression Omnibus	表达谱、芯片、高通量数据	下载基因表达数据和实验设计信息	https://www.ncbi.nlm.nih.gov/geo/	GSE=系列，GSM=样本，GPL=平台
PubMed	PubMed	文献摘要	检索生物医学文献	https://pubmed.ncbi.nlm.nih.gov/	用MeSH主题词提高检索精度
Taxonomy	NCBI Taxonomy	物种分类信息	查询物种分类地位和TaxID	https://www.ncbi.nlm.nih.gov/taxonomy	TaxID是唯一标识，如9606=人类
SILVA	SILVA rRNA Database	16S/18S/23S rRNA参考序列	16S/18S扩增子分析的参考比对数据库	https://www.arb-silva.de/	版本号如138.1，SSU=小亚基，LSU=大亚基
GTDB	Genome Taxonomy Database	基因组分类学	基于基因组的细菌/古菌分类注释	https://gtdb.ecogenomic.org/	与NCBI分类有大量差异，注意版本对应
IMG/M	Integrated Microbial Genomes & Microbiomes	微生物基因组和宏基因组	比较基因组学、功能注释	https://img.jgi.doe.gov/	JGI维护，可按生态环境检索
HMP	Human Microbiome Project	人体微生物组数据	人体不同部位微生物组参考数据	https://hmpdacc.org/	分HMP1（健康人）和iHMP（疾病关联）
MGnify	MGnify (EBI)	宏基因组分析结果	在线宏基因组分析，下载注释结果	https://www.ebi.ac.uk/metagenomics/	可直接提交原始数据进行自动分析
UniProt	Universal Protein Resource	蛋白质序列和功能注释	蛋白质功能查询、序列下载	https://www.uniprot.org/	Swiss-Prot=人工审核，TrEMBL=自动注释
ENA	European Nucleotide Archive	核酸序列和测序数据	欧洲的序列数据存储（与SRA同步）	https://www.ebi.ac.uk/ena/	与SRA互为镜像，有时下载更快
DDBJ	DNA Data Bank of Japan	核酸序列和测序数据	日本的序列数据存储（与SRA同步）	https://www.ddbj.nig.ac.jp/	三大数据库（NCBI/ENA/DDBJ）数据互通

2.2 NCBI子数据库详解¶

SRA（Sequence Read Archive）—— 重点掌握¶

SRA是全球最大的高通量测序原始数据仓库。

核心概念层级关系：

BioProject (PRJNA...)        # 项目层级，一个课题
  └── BioSample (SAMN...)    # 样本层级，一个生物样本
       └── Experiment (SRX...)  # 实验层级，一次建库
            └── Run (SRR...)    # 运行层级，一次上机（你要下载的）

编号前缀含义：

前缀	含义	示例
SRR	Sequence Read Run（测序运行）	SRR12345678
SRX	Sequence Read Experiment（实验）	SRX1234567
SRS	Sequence Read Sample（样本）	SRS1234567
SRP	Sequence Read Project（项目）	SRP123456
PRJNA	BioProject（NCBI项目号）	PRJNA12345
SAMN	BioSample（NCBI样本号）	SAMN12345

检索技巧： - 从文献的Data Availability部分找到BioProject号 - 在SRA Run Selector中筛选需要的样本 - 使用Entrez Direct命令行批量获取Run信息

GEO（Gene Expression Omnibus）—— 重点掌握¶

GEO存储基因表达和表观基因组学数据。

编号体系：

编号	含义	示例
GSE	GEO Series（系列，一个完整研究）	GSE12345
GSM	GEO Sample（单个样本）	GSM123456
GPL	GEO Platform（平台/芯片型号）	GPL570
GDS	GEO Dataset（经过标准化的数据集）	GDS1234

与SRA的关系： - GEO侧重处理后的表达矩阵和实验设计 - SRA侧重原始测序数据（FASTQ） - 一个GEO Series往往关联一个SRA BioProject - GEO的补充文件(Supplementary Files)常包含处理好的count矩阵

2.3 SILVA数据库详解¶

版本号含义： - 主版本号（如138）：大规模更新，分类树重建 - 子版本号（如138.1）：小修，修Bug - 当前常用版本：SILVA 138.1（2020年发布，仍广泛使用）

数据库分类：

缩写	全称	用途
SSURef	Small Subunit Reference	16S/18S 参考序列（全长，高质量）
SSURef_NR99	SSU Reference Non-Redundant 99%	去冗余99%的参考序列（常用）
SSUParc	SSU Parc	所有SSU序列（包括低质量）
LSURef	Large Subunit Reference	23S/28S 参考序列

与QIIME2配合： - QIIME2有预格式化的SILVA数据库 - 需要做引物区域提取（primer region extraction）匹配你的测序区域（如V3-V4）

2.4 GTDB数据库详解¶

与NCBI分类学的核心差异：

对比项	NCBI Taxonomy	GTDB
分类依据	表型+系统发育（混合）	基因组系统发育（纯基因组）
更新频率	持续更新	每年1-2次大版本
分类一致性	部分类群多系（polyphyletic）	强制单系（monophyletic）
命名	遵循传统命名	大量重新命名
覆盖范围	所有已知物种	仅有基因组的细菌和古菌
工具	Entrez, taxonkit	GTDB-Tk

GTDB重命名示例：

NCBI分类	GTDB分类	说明
Clostridium difficile	Clostridioides difficile	拆分Clostridium属
Firmicutes门	拆分为多个门	如Bacillota, Firmicutes_A等
Lactobacillus	拆分为25个属	如Lactiplantibacillus等

2.5 UniProt详解¶

子库	全称	特点	序列数量级
Swiss-Prot	Swiss-Prot	人工审核(reviewed)，高质量注释	~57万条
TrEMBL	Translated EMBL	自动注释(unreviewed)，数量大	~2.5亿条

选择建议： - 功能注释优先用Swiss-Prot（准确） - 序列比对/搜索可用UniRef90/UniRef50（聚类去冗余） - 宏基因组功能注释常用UniRef90

3. 实战命令¶

3.1 SRA数据下载¶

# ============================================================
# SRA数据下载流程
# 工具：sra-tools（通过conda安装）
# ============================================================

# 安装sra-tools
conda install -c bioconda sra-tools  # 安装SRA工具包

# ---------- 方法一：prefetch + fasterq-dump（推荐） ----------

# 第一步：prefetch 预下载SRA文件到本地缓存
prefetch SRR12345678                  # 下载单个Run（会缓存到~/ncbi/sra/）
prefetch --max-size 50G SRR12345678   # 设置最大文件大小为50G
prefetch --option-file srr_list.txt   # 从文件批量下载（一行一个SRR号）

# 第二步：fasterq-dump 将SRA转换为FASTQ
fasterq-dump SRR12345678 \            # 将SRA转为FASTQ
  --split-3 \                         # 双端分成两个文件 + 未配对的单独文件
  --threads 8 \                       # 使用8个线程加速
  --outdir ./fastq/                   # 输出目录

# 第三步：压缩FASTQ节省空间
gzip ./fastq/SRR12345678_1.fastq      # 压缩正向reads
gzip ./fastq/SRR12345678_2.fastq      # 压缩反向reads

# ---------- 方法二：批量下载脚本 ----------

#!/bin/bash
# 批量下载SRA数据
# 用法: bash download_sra.sh srr_list.txt

set -euo pipefail                     # 严格模式：出错即停

SRR_LIST=$1                           # 第一个参数：SRR编号列表文件
OUTDIR="./fastq"                      # 输出目录
THREADS=8                             # 线程数

mkdir -p ${OUTDIR}                    # 创建输出目录

while read SRR; do                    # 逐行读取SRR编号
    echo "[$(date)] 开始下载: ${SRR}"

    # 检查是否已下载（断点续跑）
    if [[ -f ${OUTDIR}/${SRR}_1.fastq.gz ]]; then
        echo "  ${SRR} 已存在，跳过"
        continue                      # 跳过已下载的
    fi

    prefetch ${SRR} --max-size 50G    # 下载SRA文件
    fasterq-dump ${SRR} \
        --split-3 \
        --threads ${THREADS} \
        --outdir ${OUTDIR}            # 转换为FASTQ

    gzip ${OUTDIR}/${SRR}_1.fastq     # 压缩
    gzip ${OUTDIR}/${SRR}_2.fastq

    echo "[$(date)] 完成: ${SRR}"
done < ${SRR_LIST}                    # 从列表文件读取

echo "全部下载完成！"

3.2 GEO数据检索与下载¶

# ============================================================
# GEO数据下载
# ============================================================

# ---------- 方法一：直接从GEO FTP下载处理好的数据 ----------

# 下载GSE系列的补充文件（通常包含表达矩阵）
wget -r -np -nd \
  "https://ftp.ncbi.nlm.nih.gov/geo/series/GSE123nnn/GSE123456/suppl/" \
  -P ./geo_data/                      # 下载到指定目录
# -r: 递归下载
# -np: 不上溯父目录
# -nd: 不创建子目录

# ---------- 方法二：使用GEOquery（R语言） ----------
# 如果面试问到，可以提一下R语言的方法：
# library(GEOquery)
# gse <- getGEO("GSE123456")

# ---------- 方法三：从SRA下载关联的原始数据 ----------

# 步骤1：在GEO页面找到关联的SRA BioProject号
# 步骤2：到SRA Run Selector选择需要的样本
# 步骤3：下载SRR_Acc_List.txt
# 步骤4：用前面的批量下载脚本处理

3.3 NCBI Datasets工具使用¶

# ============================================================
# NCBI Datasets —— 新一代命令行工具（推荐）
# 替代传统的Entrez Direct (esearch/efetch)
# ============================================================

# 安装
conda install -c conda-forge ncbi-datasets-cli  # 安装NCBI datasets CLI

# ---------- 下载参考基因组 ----------

# 按物种名下载基因组
datasets download genome taxon "Escherichia coli" \
  --reference \                        # 只下载参考基因组
  --include genome,gff3,protein \      # 包含基因组序列、注释、蛋白质
  --filename ecoli_genome.zip          # 输出文件名

unzip ecoli_genome.zip -d ecoli_data/  # 解压

# 按Accession号下载
datasets download genome accession GCF_000005845.2 \
  --include genome,gff3               # 下载大肠杆菌K-12参考基因组

# ---------- 查看数据集信息 ----------

datasets summary genome taxon "Staphylococcus aureus" \
  --reference \                        # 查看金黄色葡萄球菌参考基因组摘要信息
  --as-json-lines | \                  # JSON格式输出
  dataformat tsv genome \              # 转为表格
  --fields organism-name,accession,assminfo-level  # 选择显示的字段

# ---------- 下载基因信息 ----------

datasets download gene gene-id 947  \  # 按Gene ID下载
  --include gene,protein               # 包含基因和蛋白质序列

3.4 SILVA数据库下载与格式转换¶

# ============================================================
# SILVA数据库下载与使用
# ============================================================

# ---------- 直接下载SILVA ----------

# 下载SILVA 138.1 SSU NR99（16S分析最常用）
wget https://www.arb-silva.de/fileadmin/silva_databases/release_138.1/Exports/SILVA_138.1_SSURef_NR99_tax_silva.fasta.gz

# 解压
gunzip SILVA_138.1_SSURef_NR99_tax_silva.fasta.gz

# ---------- 为QIIME2准备SILVA数据库 ----------

# 方法一：使用QIIME2官方预构建的数据库（推荐）
# 从 https://docs.qiime2.org/2024.5/data-resources/ 下载
wget https://data.qiime2.org/2024.5/common/silva-138-99-seqs.qza      # 序列
wget https://data.qiime2.org/2024.5/common/silva-138-99-tax.qza       # 分类

# 方法二：提取特定引物区域（如V3-V4: 341F/806R）
qiime feature-classifier extract-reads \
  --i-sequences silva-138-99-seqs.qza \       # 输入：SILVA全长序列
  --p-f-primer CCTACGGGNGGCWGCAG \            # 正向引物 341F
  --p-r-primer GACTACHVGGGTATCTAATCC \        # 反向引物 806R
  --p-min-length 200 \                        # 最短片段长度
  --p-max-length 500 \                        # 最长片段长度
  --o-reads silva-138-99-v34-seqs.qza         # 输出：V3-V4区域序列

# 训练分类器（用于后续的物种注释）
qiime feature-classifier fit-classifier-naive-bayes \
  --i-reference-reads silva-138-99-v34-seqs.qza \   # 参考序列
  --i-reference-taxonomy silva-138-99-tax.qza \      # 参考分类
  --o-classifier silva-138-99-v34-classifier.qza     # 输出：训练好的分类器

3.5 GTDB-Tk分类注释¶

# ============================================================
# GTDB-Tk：基于GTDB的基因组分类注释
# 用于MAGs（宏基因组组装基因组）的物种注释
# ============================================================

# 安装GTDB-Tk
conda create -n gtdbtk -c conda-forge -c bioconda gtdbtk  # 创建独立环境
conda activate gtdbtk                                       # 激活环境

# 下载GTDB参考数据（约85GB，很大！）
download-db.sh                         # GTDB-Tk自带的下载脚本

# 或手动下载：
wget https://data.gtdb.ecogenomic.org/releases/latest/auxillary_files/gtdbtk_data.tar.gz
tar xzf gtdbtk_data.tar.gz            # 解压
export GTDBTK_DATA_PATH=/path/to/gtdbtk_data  # 设置数据库路径

# ---------- 运行GTDB-Tk ----------

# 对MAGs进行分类注释
gtdbtk classify_wf \
  --genome_dir ./mags/ \               # 输入：MAG基因组文件目录（.fasta）
  --out_dir ./gtdbtk_output/ \         # 输出目录
  --cpus 16 \                          # CPU核数
  --extension fasta                    # 基因组文件后缀名

# 输出文件说明：
# gtdbtk.bac120.summary.tsv  —— 细菌分类结果
# gtdbtk.ar53.summary.tsv    —— 古菌分类结果
# 关键列：classification（完整分类路径）、fastani_reference（最近参考基因组）

# 查看分类结果
head -n 5 gtdbtk_output/gtdbtk.bac120.summary.tsv | cut -f1,2
# 输出示例：
# genome_id    classification
# bin.1        d__Bacteria;p__Firmicutes_A;c__Clostridia;o__...

4. 面试常问点¶

★ SRA和GEO的区别？¶

参考答案：

SRA（Sequence Read Archive）存储的是原始测序数据，也就是FASTQ格式的reads，属于底层数据。GEO（Gene Expression Omnibus）存储的是处理后的数据，比如基因表达矩阵、实验设计信息和分析结果。

它们的关系是：一个GEO Series（GSE编号）通常关联一个SRA BioProject（PRJNA编号）。如果你需要从头分析（比如做宏基因组分析），就去SRA下载原始FASTQ；如果只需要看别人处理好的表达矩阵，直接从GEO下载补充文件就行。

在我的实习中，做宏基因组分析时需要下载原始数据进行质控和组装，所以主要用SRA；做16S多样性分析时，有时也会从GEO下载已经处理好的OTU表进行验证。

★ 如何从SRA下载数据？¶

参考答案：

推荐用 sra-tools 的 prefetch + fasterq-dump 两步法。

第一步，用 prefetch 先把 SRA 文件下载到本地缓存，好处是支持断点续传，网络不稳定也不怕。第二步，用 fasterq-dump 将 SRA 文件转换为 FASTQ 格式，加上 --split-3 参数自动分成双端文件。最后别忘了 gzip 压缩节省磁盘空间。

如果要批量下载，我会写一个 shell 脚本，读取 SRR 编号列表，加上断点续跑的判断逻辑（检查输出文件是否已存在），这样即使中断了也能继续。

另外，现在 NCBI 也推荐用 datasets 命令行工具，不过那个主要用于下载参考基因组，下载原始测序数据还是 sra-tools 更好用。

★ SILVA和GTDB的区别？什么时候用哪个？¶

参考答案：

SILVA 是一个 rRNA 参考序列数据库，主要用于 16S/18S 扩增子分析的物种注释。它提供的是 rRNA 基因序列和对应的分类信息。

GTDB 是一个基因组分类学数据库，基于全基因组系统发育树来定义物种分类，主要用于 MAGs（宏基因组组装基因组）的分类注释。

使用场景： - 做 16S 扩增子分析（如 QIIME2 流程）时用 SILVA - 做 宏基因组 binning 后给 MAGs 注释分类时用 GTDB（通过 GTDB-Tk 工具）

需要注意的是，GTDB 对很多传统分类做了大幅调整（比如把 Firmicutes 门拆成了好几个门），所以同一个菌在两个数据库中分类名可能不同。写论文时需要说明用的是哪个分类体系。

★ RefSeq和GenBank的区别？¶

参考答案：

GenBank 是一个提交型数据库，任何人都可以提交序列，所以里面有大量冗余和质量参差不齐的序列。

RefSeq 是 NCBI 维护的参考序列数据库，是从 GenBank 中精选出来的，经过人工审核或自动筛选，每个基因/基因组只保留一条代表性序列，是非冗余的（non-redundant）。

简单类比：GenBank 像百度百科（谁都能编辑），RefSeq 像大百科全书（有编辑审核）。

在实际工作中，做序列比对或构建参考数据库时，优先选 RefSeq，因为质量更可靠。但如果要查找某个特定菌株的序列，可能只在 GenBank 里有。

★ 你做项目时从哪里获取参考数据库？¶

参考答案：

这取决于具体的分析类型：

16S 多样性分析：用 SILVA 138.1 数据库作为参考。在 QIIME2 流程中，会先提取对应引物区域（如 V3-V4），再训练 Naive Bayes 分类器进行物种注释。

宏基因组功能注释：用 NCBI NR 数据库（做蛋白比对）、KEGG 数据库（代谢通路注释）、CAZy 数据库（碳水化合物酶注释）、eggNOG 数据库（COG/KO 注释）。

细菌基因组注释：用 Prokka 内置的数据库（基于 UniProt/Rfam/ISfinder），或者直接指定 RefSeq 的近缘物种基因组作为参考。

MAGs 分类注释：用 GTDB 数据库通过 GTDB-Tk 进行分类。

数据库版本很重要，每次分析我都会在方法部分记录用的数据库名称和版本号，保证结果可重复。

5. 易错/易混淆点¶

5.1 SRA vs ENA vs DDBJ（三大数据库镜像）¶

         INSDC (国际核酸序列数据库合作组)
         ┌──────────┼──────────┐
        NCBI       EBI        DDBJ
       (美国)     (欧洲)     (日本)
    ┌────┴────┐    │          │
  GenBank   SRA   ENA       DDBJ

三者互为镜像，数据互通，提交到一个就同步到另外两个
下载时选就近的，国内有时 ENA 比 SRA 快

ENA 可以直接下载 FASTQ（不需要先下 SRA 再转换）：

# 从ENA直接下载FASTQ（有时比SRA快）
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR123/045/SRR12345678/SRR12345678_1.fastq.gz

5.2 SILVA版本更新后ID变化¶

SILVA 的序列 ID 在大版本更新时可能变化
不同版本训练的分类器不能混用
用 QIIME2 时，序列文件和分类文件必须是同一版本
建议：一个项目内统一用同一个 SILVA 版本

5.3 GTDB vs NCBI 分类学差异¶

常见混淆场景： - 用 GTDB-Tk 注释的 MAGs 分类和 16S（SILVA/NCBI分类）结果名称对不上 - 例如：GTDB 把传统的 Bacteroides 属拆分了，你可能看到 Bacteroides_A - 解决方法：在报告中明确说明分类体系，必要时提供 NCBI 和 GTDB 的对照表

5.4 RefSeq前缀容易混¶

前缀	含义	容易混的
NC_	Complete genomic molecule（完整基因组）	NZ_（不完整基因组）
NM_	mRNA（转录本）	NR_（非编码RNA）
NP_	Protein（蛋白质）	XP_（预测蛋白质）
GCF_	RefSeq基因组Assembly	GCA_（GenBank的Assembly）

5.5 UniProt Swiss-Prot vs TrEMBL¶

Swiss-Prot 条目编号格式：P12345 或 Q8NER1（字母+数字）
TrEMBL 条目编号格式：A0A0K9R1G8（较长的编号）
面试中如果说到"用 UniProt 做功能注释"，追问时要能说清用的是哪个子库
注意：Swiss-Prot 数量少但准确；TrEMBL 数量大但可能有误注释

6. 数据库选择速查表¶

分析类型	推荐数据库	工具
16S扩增子物种注释	SILVA (R144即将发布)	QIIME2 2026.4, mothur
宏基因组物种组成	NCBI RefSeq + Kraken2 PrackenDB	Kraken2 v2.17.0, MetaPhlAn
MAGs分类注释	GTDB R11-RS232 (2026.4, 90万+基因组)	GTDB-Tk v2.6.1+
功能注释（基因级）	eggNOG, KEGG, COG	eggNOG-mapper, KofamScan
功能注释（蛋白级）	UniProt (Swiss-Prot + TrEMBL)	DIAMOND, BLAST
碳水化合物酶注释	CAZy	dbCAN
耐药基因注释	CARD, ResFinder	RGI, ABRicate
毒力因子注释	VFDB	BLAST, ABRicate
文献检索	PubMed	Entrez, PubMed界面
原始数据下载	SRA / ENA	sra-tools, wget
参考基因组下载	NCBI RefSeq	datasets CLI

7. 学习路径建议¶

先掌握：SRA下载 + SILVA使用 + NCBI检索（日常工作最常用）
再学习：GTDB分类 + UniProt检索（项目深入时需要）
了解即可：IMG/M + HMP + MGnify（面试知道有这些数据库即可）
持续关注：数据库版本更新（SILVA、GTDB 每年都有新版本）

🔄 最新版本动态（2026年4月更新）¶

面试时提到最新版本号是加分项，说明你关注领域前沿。

工具/数据库	最新版本	发布时间	关键变化
SILVA	R138.1（R144即将发布）	2025.11论文	整合至DSMZ数字多样性平台，新增TaxMap可视化工具，提供QIIME2/DADA2/Kraken2分类器
GTDB	R11-RS232	2026.04	涵盖 901,341 个基因组（比R10增长23%），>95%的细菌和古菌物种仍待基因组学阐明
GTDB-Tk	v2.6.1+ (v2.7.0含skani预构建数据库)	2025.12	v2.7.0将数据库从198GB压缩至98GB，大幅降低存储需求
QIIME2	2026.4	2026.04	框架重命名为 rachis，升级至Python 3.12，定位为"AI-ready微生物多组学平台"
Kraken2	v2.17.0	2026	新增 PrackenDB（2026.01），修复多数据库分类支持，FASTA/Q解析器换用kseq大幅加速

💡 面试加分话术： - "GTDB最新的R11版本已经覆盖了超过90万个基因组，但据估计95%以上的微生物物种还没有基因组代表" - "SILVA今年和DSMZ整合了，未来会和BRENDA酶数据库联动，可以从rRNA分类直接关联到代谢功能" - "QIIME2最新版已经重命名为rachis框架，定位是AI-ready的微生物多组学平台"