864. 宏基因组学习路线
一句话概述:宏基因组 = 直接测环境中所有微生物的DNA——不需要培养就能知道"谁在那里(物种)、能干什么(功能)、在干什么(活性)"。
核心知识点速查表
| 阶段 | 内容 | 工具 | 时长 |
|---|
| 基础 | 16S/ITS扩增子分析 | QIIME2 | 2-3周 |
| 进阶 | 宏基因组Reads分析 | Kraken2/MetaPhlAn | 2-3周 |
| 高级 | 宏基因组组装+分箱 | MEGAHIT/MetaBAT2 | 3-4周 |
| 前沿 | 宏转录组/宏蛋白组 | HUMAnN/MetaProt | 2-3周 |
一、学习路线详解
# === 宏基因组学习路线(12周计划) ===
# 第1-2周: 微生物组基础
必学内容:
- 微生物组概念(什么是微生物组)
- 16S rRNA基因和物种分类
- Alpha/Beta多样性的含义
- 常见微生物组研究设计
实操:
- 下载QIIME2移动端数据集
- 完成QIIME2官方入门教程
# 第3-4周: 扩增子分析(QIIME2)
必学内容:
- 数据导入和质控
- DADA2去噪(ASV方法)
- 物种分类(SILVA/Greengenes2)
- Alpha多样性(Shannon/Chao1)
- Beta多样性(UniFrac/Bray-Curtis)
- 差异分析(LEfSe/ANCOM-BC)
实操:
- 用公开数据完成完整16S分析
- 画出物种组成堆叠图
# 第5-6周: 宏基因组Reads分析
必学内容:
- 宏基因组 vs 扩增子的区别
- 质控和宿主去除(fastp+Bowtie2)
- 物种注释(Kraken2/MetaPhlAn4)
- 功能注释(HUMAnN3)
- 通路丰度分析
实操:
- 用HMP数据跑完整流程
- 比较16S和宏基因组结果差异
# 第7-9周: 宏基因组组装+分箱
必学内容:
- 宏基因组组装(MEGAHIT/metaSPAdes)
- 组装质量评估(QUAST/MetaQUAST)
- 分箱(MetaBAT2/MaxBin2/CONCOCT)
- 分箱优化(DAS Tool整合)
- MAG质量评估(CheckM2)
- 基因预测(Prodigal)
- 功能注释(eggNOG-mapper)
实操:
- 从宏基因组数据中恢复MAGs
- 对MAGs做系统发育分析
# 第10-12周: 进阶分析
必学内容:
- 菌株层面分析(StrainPhlAn)
- 抗性基因检测(AMRFinderPlus)
- 代谢通路重建(KEGG/MetaCyc)
- 机器学习建模(随机森林/XGBoost)
- 网络分析(SparCC/SPIEC-EASI)
实操:
- 完成一个完整的宏基因组研究项目
- 写分析报告(含图表和方法学)
二、核心工具实操
# === 宏基因组分析核心命令 ===
# 1. 质控 + 宿主去除
fastp -i raw_R1.fq.gz -I raw_R2.fq.gz \ # fastp质控
-o clean_R1.fq.gz -O clean_R2.fq.gz \
-q 20 -l 50 # Q20 + 50bp最短
bowtie2 -x human_genome \ # 去除人类reads
-1 clean_R1.fq.gz -2 clean_R2.fq.gz \
--un-conc-gz nonhost_%.fq.gz \ # 非人类reads
-S /dev/null # 丢弃比对结果
# 2. 物种注释
kraken2 --db k2_standard \ # Kraken2分类
--paired nonhost_1.fq.gz nonhost_2.fq.gz \
--output kraken2.out \ # 分类结果
--report kraken2.report \ # 报告
--threads 16
bracken -d k2_standard \ # Bracken丰度估计
-i kraken2.report \
-o bracken.txt \
-l S # 种水平
# 3. 功能注释
humann3 --input nonhost_cat.fq.gz \ # HUMAnN3功能分析
--output humann3_out/ \
--threads 16
# 4. 组装
megahit -1 nonhost_1.fq.gz \ # MEGAHIT组装
-2 nonhost_2.fq.gz \
-o megahit_out/ \
-t 32 --min-contig-len 1000 # 最短contig 1kb
# 5. 分箱
metabat2 -i contigs.fa \ # MetaBAT2分箱
-a depth.txt \ # 覆盖度信息
-o bins/bin \ # 输出前缀
-m 1500 # 最短contig 1.5kb
# 6. MAG质量评估
checkm2 predict \ # CheckM2评估
--input bins/ \ # 分箱目录
--output checkm2_out/ \
--threads 16
# 高质量MAG: 完整度>90%, 污染<5%
# 中质量MAG: 完整度>50%, 污染<10%
三、关键概念解释
# === 宏基因组关键概念白话解释 ===
concepts = {
"16S vs 宏基因组": """
16S: 只测一个基因(16S rRNA),告诉你"谁在那里"
宏基因组: 测所有DNA,告诉你"谁在那里+能干什么"
类比: 16S是人口普查(只统计人数),宏基因组是全面调查(连职业都查)
""",
"ASV vs OTU": """
OTU: 把97%相似的序列归为一类(分辨率低)
ASV: 精确到每个独特序列(分辨率高)
2026年推荐: ASV (DADA2方法)
""",
"Alpha多样性 vs Beta多样性": """
Alpha: 单个样本内部的多样性(一个人肠道里有多少种菌)
- Shannon指数: 考虑丰富度和均匀度
- Chao1指数: 估计总物种数
Beta: 样本之间的差异(两个人的菌群有多不同)
- UniFrac: 考虑进化关系
- Bray-Curtis: 只看丰度差异
""",
"MAG(Metagenome-Assembled Genome)": """
从宏基因组数据中"拼出"单个微生物的基因组
类比: 从一堆混在一起的拼图中分离出每幅画
步骤: 组装(拼接) → 分箱(分离) → 评估(检查质量)
""",
"LEfSe vs ANCOM-BC": """
LEfSe: 经典差异分析工具,用LDA效应值排序
ANCOM-BC: 更新的方法,解决了组成数据的偏差问题
2026年推荐: ANCOM-BC (统计上更严谨)
"""
}
四、面试准备要点
# === 宏基因组方向面试高频问题 ===
interview_prep = {
"Q: 16S和宏基因组怎么选?": """
16S: 便宜、样本量大、只看物种组成时
宏基因组: 需要功能信息、菌株分辨率、或MAGs时
混合方案: 先用16S做大规模筛查,再选关键样本做宏基因组
""",
"Q: Kraken2和MetaPhlAn4的区别?": """
Kraken2: 基于k-mer的分类,速度快,需要大数据库(64GB+)
MetaPhlAn4: 基于marker基因,更保守,数据库小(<1GB)
选择: 快速分析用Kraken2,发表论文两个都跑
""",
"Q: 宏基因组数据量怎么确定?": """
- 人肠道: 5-10GB/样本 (30-50M reads)
- 土壤: 10-20GB/样本 (复杂度更高)
- 组装需要: 建议10GB+/样本
- reads分析: 3-5GB足够
""",
"Q: 组成数据(compositional data)有什么问题?": """
微生物丰度是相对的(比例数据,总和为1)
问题: 一个物种增加,其他物种的比例会"被动"下降
解决: 用CLR转换、ANCOM-BC、或ALDEx2处理
"""
}
常见报错与解决
| 报错信息 | 原因 | 解决方法 |
|---|
Kraken2 database too large | 数据库需要64GB+ RAM | 用MiniKraken或增加内存 |
MEGAHIT out of memory | 组装需要大量内存 | 增加内存或减少k值范围 |
CheckM2 low completeness | 分箱质量差 | 增加测序深度或优化分箱参数 |
HUMAnN3 too slow | 数据量大 | 先用MetaPhlAn预筛再运行 |
QIIME2 plugin error | 版本不兼容 | 用对应版本的QIIME2 |
速查表
# 宏基因组分析路线
扩增子: QIIME2(DADA2) → 物种+多样性+差异
Reads: fastp → Kraken2/MetaPhlAn → HUMAnN3
组装: MEGAHIT → MetaBAT2 → CheckM2 → 注释
# 工具对应关系
物种注释: Kraken2(快) / MetaPhlAn4(准)
功能注释: HUMAnN3(通路) / eggNOG-mapper(基因)
组装: MEGAHIT(快) / metaSPAdes(准)
分箱: MetaBAT2 + MaxBin2 + DAS Tool
质控: CheckM2(MAG) / QUAST(组装)
差异: LEfSe / ANCOM-BC / ALDEx2
# 数据下载
GEO/SRA: NCBI公共数据库
HMP: 人类微生物组计划
EBI/MGnify: 欧洲宏基因组数据库
国家基因组: GSA(国内数据)
# 学习资源
官方教程: QIIME2 docs + MetaPhlAn wiki
视频: B站"宏基因组"频道
论文: Nature Reviews Microbiology综述
实战: HMP数据 + 自己的课题数据