SemiBin2¶

一句话概述¶

Binning就是把宏基因组组装出来的contigs按"谁是一家人"分成一组一组，每组就是一个MAG（宏基因组组装基因组），就像把一堆打散的拼图碎片按图案重新归类。

核心知识点表格¶

知识点	说明
Binning定义	将宏基因组组装的contigs按物种来源分组，恢复单个微生物基因组
MAG	Metagenome-Assembled Genome，从宏基因组数据中恢复的基因组
传统方法	MetaBAT2、CONCOCT、MaxBin2，基于组成特征+覆盖度
深度学习方法	SemiBin2、COMEBin、VAMB，基于神经网络的特征学习
Ensemble策略	用DAS Tool/MetaWRAP整合多个binner的结果，取最优集合
评估标准	完整度(completeness)、污染度(contamination)、NC bins数量

白话解释：什么是Binning？¶

想象你去一个二手书市场，地上堆着几万本不同出版社的书，但封面都撕掉了。你的任务是：把同一个出版社的书归到一堆。

你怎么做？可以看： 1. 纸张材质（= 序列组成特征，如GC含量、四核苷酸频率） 2. 字体大小（= 测序覆盖深度，同一个物种的基因覆盖度类似）

传统工具（MetaBAT2等）就是用这两个线索来分组的。而新一代工具（SemiBin2等）则用了深度学习，相当于请了一个AI来帮你识别书的风格特征。

四大工具详细对比¶

MetaBAT2¶

白话解释： 最经典的老将，速度最快，像是经验丰富的老工人，干活快但可能漏掉一些难分辨的东西。

技术细节： - 算法：基于距离度量的自适应binning - 输入：contigs的覆盖深度 + 序列组成 - 特点：自动确定参数，不需要手动调

# 安装MetaBAT2
conda install -c bioconda metabat2  # 用conda安装metabat2

# 第一步：用samtools对bam文件排序
samtools sort sample.bam -o sample_sorted.bam  # 将比对文件按位置排序

# 第二步：生成覆盖深度文件
jgi_summarize_bam_contig_depths \
    --outputDepth depth.txt \        # 输出深度文件
    sample_sorted.bam                # 输入排序后的bam文件

# 第三步：运行MetaBAT2
metabat2 \
    -i contigs.fa \          # 输入组装的contigs文件
    -a depth.txt \           # 输入覆盖深度文件
    -o bins/bin \             # 输出目录和前缀
    -m 1500 \                # 最小contig长度1500bp
    -t 16                    # 使用16个线程

CONCOCT¶

白话解释： 用高斯混合模型来聚类，理论上更严谨，但速度慢，遇到大数据集可能跑不动。

技术细节： - 算法：PCA降维 + 高斯混合模型(GMM)聚类 - 输入：序列组成 + 多样本覆盖度 - 特点：适合多样本联合分析

# 安装CONCOCT
conda install -c bioconda concoct  # 用conda安装concoct

# 第一步：将contigs切成等长片段（默认10kb）
cut_up_fasta.py contigs.fa \
    -c 10000 \               # 切割长度10000bp
    -o 0 \                   # 重叠长度0
    --merge_last \           # 合并最后一个短片段
    -b contigs_10K.bed \     # 输出bed文件
    > contigs_10K.fa         # 输出切割后的fasta

# 第二步：生成覆盖度表
concoct_coverage_table.py \
    contigs_10K.bed \        # 输入bed文件
    sample_sorted.bam \      # 输入bam文件
    > coverage_table.tsv     # 输出覆盖度表

# 第三步：运行CONCOCT
concoct \
    --composition_file contigs_10K.fa \  # 输入序列文件
    --coverage_file coverage_table.tsv \ # 输入覆盖度文件
    -b concoct_output/ \                 # 输出目录
    -t 16                                # 使用16个线程

# 第四步：合并切割结果
merge_cutup_clustering.py \
    concoct_output/clustering_gt1000.csv \  # 输入聚类结果
    > concoct_output/clustering_merged.csv  # 输出合并后的结果

# 第五步：提取bins的fasta文件
extract_fasta_bins.py \
    contigs.fa \                            # 原始contigs
    concoct_output/clustering_merged.csv \  # 合并后的聚类结果
    --output_path concoct_bins/             # 输出bins目录

MaxBin2¶

白话解释： 用期望最大化(EM)算法来分组，中规中矩，但在大数据集上容易很慢。

技术细节： - 算法：EM算法迭代优化 - 输入：序列组成 + 覆盖度 + 标记基因 - 特点：用107个标记基因辅助判断

# 安装MaxBin2
conda install -c bioconda maxbin2  # 用conda安装maxbin2

# 运行MaxBin2
run_MaxBin.pl \
    -contig contigs.fa \     # 输入contigs文件
    -abund depth.txt \       # 输入覆盖度文件
    -out maxbin_output \     # 输出前缀
    -thread 16               # 使用16个线程

SemiBin2¶

白话解释： 新一代深度学习工具，用自监督学习的方法训练模型，效果比传统方法好很多，是目前的主流选择之一。

技术细节： - 算法：自监督对比学习 + 半监督深度学习 - 输入：序列组成 + 覆盖度 - 特点：支持多样本模式(multi-sample)，效果显著提升

# 安装SemiBin2
conda install -c bioconda semibin  # 用conda安装semibin

# 单样本模式
SemiBin2 single_easy_bin \
    -i contigs.fa \          # 输入contigs文件
    -b sample_sorted.bam \   # 输入排序后的bam文件
    -o semibin_output \      # 输出目录
    --environment human_gut \ # 指定环境类型（human_gut/dog_gut/ocean等）
    -t 16                    # 使用16个线程

# 多样本模式（推荐，效果更好）
SemiBin2 multi_easy_bin \
    -i contigs.fa \          # 输入co-assembly的contigs
    -b sample1.bam sample2.bam sample3.bam \  # 输入所有样本的bam
    -o semibin_multi_output \  # 输出目录
    -t 16                      # 使用16个线程

2025年最新Benchmark结果¶

根据2025年发表在Nature Communications上的综合评测研究：

工具	类型	NC bins恢复量	速度	推荐度
COMEBin	神经网络	最高	较慢，需GPU	★★★★★
SemiBin2-multi	神经网络	很高	较快	★★★★★
VAMB-multi	神经网络	高	中等	★★★★
MetaBAT2	传统	低	最快	★★★
MaxBin2	传统	低	慢	★★
CONCOCT	传统	低	最慢	★★

关键发现： 单独使用COMEBin或SemiBin2-multi，就已经比传统三件套(MetaWRAP整合CONCOCT+MaxBin2+MetaBAT2)恢复更多的MAG。

常见报错与解决¶

报错	原因	解决方案
`jgi_summarize_bam_contig_depths: command not found`	MetaBAT2没安装好	`conda install -c bioconda metabat2`
CONCOCT运行超过2周不出结果	数据集太大（>600万contigs）	用SemiBin2替代CONCOCT
`CUDA out of memory`	COMEBin需要GPU但显存不足	减小batch_size或使用CPU模式
SemiBin2报`environment`错误	环境类型拼写错误	检查可选项：`human_gut`, `dog_gut`, `ocean`, `soil`, `cat_gut`, `human_oral`, `mouse_gut`, `pig_gut`, `built_environment`, `wastewater`, `chicken_caecum`, `global`
MaxBin2输出0个bin	contig太短或覆盖度文件格式错误	检查最小contig长度，确保depth文件格式正确
DAS Tool报`Fasta_to_Contig2Bin.sh`找不到	v1.1.3之前用`Fasta_to_Scaffolds2Bin.sh`	检查DAS Tool版本，用正确的脚本名

速查表¶

# 快速选择指南
数据量小 + 赶时间 → MetaBAT2
多样本 + 追求质量 → SemiBin2 multi模式
有GPU + 追求最优 → COMEBin
需要ensemble → DAS Tool / MetaWRAP / Binette 整合多个binner

# 各工具输入格式
所有binner都需要：
1. contigs.fa  — 组装后的contig文件
2. *.bam       — reads比对到contigs的比对文件
3. depth.txt   — 覆盖度文件（部分工具自动计算）

# 版本信息（截至2025年）
MetaBAT2: v2.12.1+
CONCOCT: v1.1.0
MaxBin2: v2.2.7
SemiBin2: v2.1.0+
COMEBin: v1.0.4+
DAS Tool: v1.1.7

面试高频问题¶

Q1：什么是Binning？为什么需要做Binning？

A：Binning是把宏基因组组装出来的contigs按照物种来源分成一组一组（每组叫一个bin/MAG）。需要做是因为宏基因组测序测的是混合微生物群落，组装后得到的contigs来自不同物种，需要分开才能恢复单个物种的基因组。

Q2：Binning主要依据什么特征来分组？

A：主要两个特征：①序列组成特征（如GC含量、四核苷酸频率）——同一物种的序列组成相似；②覆盖深度——同一物种的不同contigs在相同样本中的覆盖深度接近。

Q3：传统Binner和深度学习Binner有什么区别？

A：传统方法（MetaBAT2/CONCOCT/MaxBin2）用手工设计的统计模型；深度学习方法（SemiBin2/COMEBin/VAMB）用神经网络自动学习特征。2025年benchmark表明深度学习方法恢复的MAG数量显著多于传统方法。

Q4：什么是Ensemble binning？为什么要用？

A：不同binner各有优劣，对同一数据产生的bins不同。Ensemble就是把多个binner的结果整合在一起，用DAS Tool或MetaWRAP选出最优的非冗余bin集合。这样比任何单个binner效果都好。

Q5：你会怎么设计一个Binning流程？

A：推荐使用SemiBin2 multi模式 + COMEBin作为主力binner，然后用DAS Tool整合结果，再用CheckM2评估质量。如果资源有限，至少用SemiBin2单样本模式。

宏基因组Binning策略对比：MetaBAT2/CONCOCT/MaxBin2/SemiBin2¶

一句话概述¶

核心知识点表格¶

白话解释：什么是Binning？¶

四大工具详细对比¶

MetaBAT2¶

CONCOCT¶

MaxBin2¶

SemiBin2¶

2025年最新Benchmark结果¶

推荐的Ensemble策略¶

传统三件套（经典但已过时）¶

新一代三件套（2025年推荐）¶

常见报错与解决¶

速查表¶

面试高频问题¶

宏基因组Binning策略对比：MetaBAT2/CONCOCT/MaxBin2/SemiBin2¶

一句话概述¶

核心知识点表格¶

白话解释：什么是Binning？¶

四大工具详细对比¶

MetaBAT2¶

CONCOCT¶

MaxBin2¶

SemiBin2¶

2025年最新Benchmark结果¶

推荐的Ensemble策略¶

传统三件套（经典但已过时）¶

新一代三件套（2025年推荐）¶

常见报错与解决¶

速查表¶

面试高频问题¶

📚 相关文章推荐