跳转至

PhyloPhlAn — 基于通用标记基因的高精度微生物系统发育分析工具


一句话说明

PhyloPhlAn 3 利用数百个通用标记蛋白质,快速构建微生物的高分辨率系统发育树,支持从基因组序列到 MAG 的全面系统发育定位分析。


安装与配置

# 创建专用环境
conda create -n phylophlan python=3.10 -y
conda activate phylophlan

# 从 bioconda 安装 PhyloPhlAn(当前版本 v3.2.1)
conda install -c bioconda -c conda-forge phylophlan -y

# 安装依赖工具
conda install -c bioconda diamond mafft raxml fasttree -y

# 验证安装
phylophlan --version              # 查看版本
phylophlan_setup_database --help  # 查看数据库设置工具帮助

# 下载标记基因数据库(首次运行必须)
# PhyloPhlAn 提供多种参考数据库
phylophlan_setup_database \
    -d phylophlan \                # 使用内置 PhyloPhlAn 数据库
    --download_taxa_uniref \       # 下载分类-UniRef 映射
    -o databases/phylophlan/       # 数据库输出目录

核心用法

基础:从基因组序列构建系统发育树

# 准备输入:将所有基因组放在一个目录下
mkdir -p genomes_dir
cp bin_01.fa bin_02.fa ref_genome.fa genomes_dir/

# 运行 PhyloPhlAn(基本模式)
# -i:输入基因组目录
# -d:使用的数据库名称
# -o:输出目录
# --diversity:进化多样性水平(low/medium/high)
# --accurate:使用更精确但较慢的对齐方式
phylophlan \
    -i genomes_dir/ \
    -d phylophlan \
    -o phylophlan_out/ \
    --diversity medium \
    --accurate \
    --nproc 16                    # 线程数

MAG 精细物种级分类

# 将 MAG 放置在参考基因组树中(菌株分辨率)
# --metagenomic:宏基因组模式(适合低质量 MAG)
phylophlan \
    -i mag_bins/ \
    -d phylophlan \
    -o phylophlan_mag_out/ \
    --diversity high \            # 高多样性(跨门级)
    --metagenomic \               # 宏基因组模式
    --nproc 16

物种鉴定(快速分类定位)

# 使用 phylophlan_metagenomic 子命令快速鉴定 MAG 物种
# 比完整树构建快很多
phylophlan_metagenomic \
    -i mag_bins/ \
    -o mag_classification/ \
    --nproc 16 \
    --database SGB \              # 使用 SGB(Species Genome Bins)数据库
    --database_folder databases/  # 数据库目录

参数详解

参数说明默认值
-i输入基因组目录必填
-d标记基因数据库名必填
-o输出目录必填
--diversity多样性水平(low/medium/high)medium
--accurate高精度对齐模式关闭
--nproc并行进程数1
--metagenomic宏基因组/低质量基因组模式关闭
--min_num_proteins最少标记蛋白数1
--min_num_markers最少标记基因数1
--mutation_rates估算突变率关闭

实战案例

# 场景:将肠道宏基因组 MAG 定位到已知细菌系统发育框架

# 1. 准备参考基因组 + MAG(混合输入)
mkdir -p phylo_input
# 复制已知参考基因组
cp ref_genomes/*.fa phylo_input/
# 复制分析的 MAG
cp das_tool_bins/*.fa phylo_input/

# 2. 构建系统发育树
phylophlan \
    -i phylo_input/ \
    -d phylophlan \
    -o phylo_results/ \
    --diversity medium \
    --accurate \
    --nproc 16

# 3. 输出文件说明
ls phylo_results/
# *.tre    — 系统发育树文件(Newick 格式,可用 FigTree 可视化)
# *.aln    — 多序列比对文件
# *.info   — 每个基因组使用的标记基因数量

# 4. 用 FigTree 可视化
# 打开 phylo_results/*.tre 文件即可

# 5. 快速 MAG 物种鉴定(更快的替代方案)
phylophlan_metagenomic \
    -i das_tool_bins/ \
    -o mag_taxa/ \
    --nproc 16 \
    -n 5 \                        # 返回前 5 个最相似参考基因组
    --database SGB \
    --database_folder databases/

常见报错与解决

报错信息原因解决方法
Database not found数据库未下载运行 phylophlan_setup_database
No markers found基因组质量太低降低 --min_num_markers,用 --metagenomic
DIAMOND errorDiamond 版本问题conda update diamond
mafft not foundmafft 未安装conda install mafft
树构建时间太长样本量太大减少输入基因组数,或用 fast 模式

速查表

# 数据库设置(一次性)
phylophlan_setup_database -d phylophlan -o db/

# 标准基因组系统发育树
phylophlan -i genomes/ -d phylophlan -o out/ --diversity medium --nproc 16

# MAG 物种快速鉴定
phylophlan_metagenomic -i mags/ -o taxa/ --nproc 16 --database SGB --database_folder db/

# 查看树文件(文本模式)
cat phylophlan_out/*.tre    # Newick 格式树