PhyloPhlAn — 基于通用标记基因的高精度微生物系统发育分析工具
一句话说明
PhyloPhlAn 3 利用数百个通用标记蛋白质,快速构建微生物的高分辨率系统发育树,支持从基因组序列到 MAG 的全面系统发育定位分析。
安装与配置
# 创建专用环境
conda create -n phylophlan python=3.10 -y
conda activate phylophlan
# 从 bioconda 安装 PhyloPhlAn(当前版本 v3.2.1)
conda install -c bioconda -c conda-forge phylophlan -y
# 安装依赖工具
conda install -c bioconda diamond mafft raxml fasttree -y
# 验证安装
phylophlan --version # 查看版本
phylophlan_setup_database --help # 查看数据库设置工具帮助
# 下载标记基因数据库(首次运行必须)
# PhyloPhlAn 提供多种参考数据库
phylophlan_setup_database \
-d phylophlan \ # 使用内置 PhyloPhlAn 数据库
--download_taxa_uniref \ # 下载分类-UniRef 映射
-o databases/phylophlan/ # 数据库输出目录
核心用法
基础:从基因组序列构建系统发育树
# 准备输入:将所有基因组放在一个目录下
mkdir -p genomes_dir
cp bin_01.fa bin_02.fa ref_genome.fa genomes_dir/
# 运行 PhyloPhlAn(基本模式)
# -i:输入基因组目录
# -d:使用的数据库名称
# -o:输出目录
# --diversity:进化多样性水平(low/medium/high)
# --accurate:使用更精确但较慢的对齐方式
phylophlan \
-i genomes_dir/ \
-d phylophlan \
-o phylophlan_out/ \
--diversity medium \
--accurate \
--nproc 16 # 线程数
MAG 精细物种级分类
# 将 MAG 放置在参考基因组树中(菌株分辨率)
# --metagenomic:宏基因组模式(适合低质量 MAG)
phylophlan \
-i mag_bins/ \
-d phylophlan \
-o phylophlan_mag_out/ \
--diversity high \ # 高多样性(跨门级)
--metagenomic \ # 宏基因组模式
--nproc 16
物种鉴定(快速分类定位)
# 使用 phylophlan_metagenomic 子命令快速鉴定 MAG 物种
# 比完整树构建快很多
phylophlan_metagenomic \
-i mag_bins/ \
-o mag_classification/ \
--nproc 16 \
--database SGB \ # 使用 SGB(Species Genome Bins)数据库
--database_folder databases/ # 数据库目录
参数详解
| 参数 | 说明 | 默认值 |
|---|
-i | 输入基因组目录 | 必填 |
-d | 标记基因数据库名 | 必填 |
-o | 输出目录 | 必填 |
--diversity | 多样性水平(low/medium/high) | medium |
--accurate | 高精度对齐模式 | 关闭 |
--nproc | 并行进程数 | 1 |
--metagenomic | 宏基因组/低质量基因组模式 | 关闭 |
--min_num_proteins | 最少标记蛋白数 | 1 |
--min_num_markers | 最少标记基因数 | 1 |
--mutation_rates | 估算突变率 | 关闭 |
实战案例
# 场景:将肠道宏基因组 MAG 定位到已知细菌系统发育框架
# 1. 准备参考基因组 + MAG(混合输入)
mkdir -p phylo_input
# 复制已知参考基因组
cp ref_genomes/*.fa phylo_input/
# 复制分析的 MAG
cp das_tool_bins/*.fa phylo_input/
# 2. 构建系统发育树
phylophlan \
-i phylo_input/ \
-d phylophlan \
-o phylo_results/ \
--diversity medium \
--accurate \
--nproc 16
# 3. 输出文件说明
ls phylo_results/
# *.tre — 系统发育树文件(Newick 格式,可用 FigTree 可视化)
# *.aln — 多序列比对文件
# *.info — 每个基因组使用的标记基因数量
# 4. 用 FigTree 可视化
# 打开 phylo_results/*.tre 文件即可
# 5. 快速 MAG 物种鉴定(更快的替代方案)
phylophlan_metagenomic \
-i das_tool_bins/ \
-o mag_taxa/ \
--nproc 16 \
-n 5 \ # 返回前 5 个最相似参考基因组
--database SGB \
--database_folder databases/
常见报错与解决
| 报错信息 | 原因 | 解决方法 |
|---|
Database not found | 数据库未下载 | 运行 phylophlan_setup_database |
No markers found | 基因组质量太低 | 降低 --min_num_markers,用 --metagenomic |
DIAMOND error | Diamond 版本问题 | conda update diamond |
mafft not found | mafft 未安装 | conda install mafft |
| 树构建时间太长 | 样本量太大 | 减少输入基因组数,或用 fast 模式 |
速查表
# 数据库设置(一次性)
phylophlan_setup_database -d phylophlan -o db/
# 标准基因组系统发育树
phylophlan -i genomes/ -d phylophlan -o out/ --diversity medium --nproc 16
# MAG 物种快速鉴定
phylophlan_metagenomic -i mags/ -o taxa/ --nproc 16 --database SGB --database_folder db/
# 查看树文件(文本模式)
cat phylophlan_out/*.tre # Newick 格式树