LEfSe差异分析详解¶
一句话概述:LEfSe(Linear discriminant analysis Effect Size)是微生物组差异丰度分析的经典工具,通过Kruskal-Wallis检验+LDA效应量筛选组间差异物种。注意:2025年多项基准测试显示LEfSe假阳性率较高,建议与ALDEx2等方法配合使用。
核心知识点速查表¶
| 概念 | 说明 |
|---|---|
| LEfSe | 线性判别分析效应量(白话:找两组微生物组之间谁不一样) |
| LDA score | 效应量,>2通常认为有生物学意义 |
| Kruskal-Wallis | 非参数检验,比较多组差异 |
| Wilcoxon | 成对非参数检验,验证组间一致性 |
一、在线使用LEfSe¶
# === LEfSe在线版(Galaxy) ===
# 访问: https://huttenhower.sph.harvard.edu/galaxy/
# 步骤:
# 1. 上传数据(格式: 第1行=分组,后续行=物种丰度)
# 2. LEfSe → Format Data for LEfSe
# 3. LEfSe → LDA Effect Size
# 4. LEfSe → Plot LEfSe Results (柱状图+分支图)
二、命令行/Python使用¶
# === 安装LEfSe ===
conda install -c bioconda lefse
# === 准备输入文件 ===
# 格式: TSV文件
# 第1行: 分组(class)
# 第2行: 亚组(subclass, 可选)
# 后续行: 物种|丰度值
# === 运行LEfSe ===
# 第1步: 格式化
lefse_format_input.py \
input.tsv \ # 输入文件
formatted.in \ # 格式化输出
-c 1 \ # class所在行(第1行)
-u 2 \ # subclass所在行(第2行)
-o 1000000 # 归一化到百万
# 第2步: 运行LEfSe
lefse_run.py \
formatted.in \ # 输入
lefse_results.res \ # 结果文件
-l 2.0 \ # LDA阈值(默认2.0)
-a 0.05 \ # Kruskal-Wallis p值阈值
-w 0.05 # Wilcoxon p值阈值
# 第3步: 可视化
lefse_plot_res.py \
lefse_results.res \ # 结果文件
lefse_barplot.png \ # 输出柱状图
--dpi 300 # 分辨率
lefse_plot_cladogram.py \
lefse_results.res \ # 结果文件
lefse_cladogram.png \ # 输出分类树图
--dpi 300
三、R语言实现¶
# === 使用microbiomeMarker包 ===
library(microbiomeMarker)
library(phyloseq)
# 从phyloseq对象运行LEfSe
lefse_result <- run_lefse(
ps, # phyloseq对象
group = "Group", # 分组变量
norm = "CPM", # 标准化方法
lda_cutoff = 2, # LDA阈值
kw_cutoff = 0.05, # KW检验p值阈值
wilcoxon_cutoff = 0.05 # Wilcoxon检验p值阈值
)
# 查看差异物种
marker_table(lefse_result)
# 可视化
plot_ef_bar(lefse_result) # 效应量柱状图
plot_cladogram(lefse_result) # 分类树图
四、重要注意事项(2025更新)¶
# ⚠️ LEfSe的已知问题(基于2022-2025多项基准测试):
# 1. 假阳性率较高:比其他工具识别出更多"显著"物种
# 2. 不处理组成偏差:直接对相对丰度分析
# 3. 多重检验校正不足:默认不做FDR校正
# 4. 2025 Briefings in Bioinformatics研究:LEfSe可重复性较差
# 推荐做法:
# 1. LEfSe结果与ALDEx2/MaAsLin2取交集
# 2. 如果只用一种方法,推荐ALDEx2或MaAsLin2
# 3. 报告LEfSe结果时注明LDA阈值和p值阈值
五、面试高频考点¶
Q1: LEfSe的分析步骤?¶
- Kruskal-Wallis检验:筛选组间差异显著的物种
- Wilcoxon检验:在亚组间验证一致性
- LDA(线性判别分析):计算效应量,评估生物学意义
- LDA score > 2 被认为有生物学意义
Q2: 为什么2025年不推荐单独使用LEfSe?¶
- Nearing等(2022, Nature Comms)发现LEfSe假阳性率高
- Pelto等(2025, Briefings in Bioinf)发现LEfSe可重复性差
- 推荐:ALDEx2(最保守)、MaAsLin2(平衡)、或多方法取交集