代谢组学基础与数据分析(Metabolomics)¶
一句话说明¶
代谢组学就是大规模研究一个细胞/组织/生物体里所有小分子代谢物(<1.5 kDa)的种类和数量变化——如果基因组是"菜谱"、蛋白质组是"厨师做的菜",那代谢组就是"菜做完后厨房里弥漫的味道和产生的营养物质",它最直接反映生物体此刻的生理状态。
1. 什么是代谢组学¶
1.1 定义¶
代谢组学(Metabolomics)是对代谢组(metabolome)进行系统研究的学科。代谢组指一个生物样本中所有小分子代谢物的集合,包括氨基酸、脂肪酸、糖类、有机酸、核苷酸等。
来源:Wikipedia - "Metabolomics is the scientific study of chemical processes involving metabolites, the small molecule substrates, intermediates, and products of cell metabolism."
1.2 白话理解¶
| 概念 | 白话 |
|---|---|
| 代谢物(Metabolite) | 细胞工厂的"产品"和"半成品",分子量通常 <1500 Da |
| 代谢组(Metabolome) | 一个生物体某一时刻所有小分子产物的"全家福照片" |
| 代谢组学(Metabolomics) | 给这张"全家福"拍照、比较、找规律的技术 |
1.3 代谢组学在"多组学"中的位置¶
DNA(基因组)→ mRNA(转录组)→ 蛋白质(蛋白质组)→ 代谢物(代谢组)
菜谱 抄写的菜单 厨师做出的菜 菜的味道/营养
上游(信息层) ──────────────────→ 下游(功能层)
关键区别:蛋白质组研究的是"做菜的厨师"(功能执行者),代谢组研究的是"菜做出来后产生的最终产物"(代谢终端)。代谢组是最接近表型(phenotype)的组学层次。
1.4 为什么需要代谢组学?¶
- 离表型最近:基因变化不一定导致表型变化,但代谢物变化几乎一定伴随表型改变
- 放大效应:一个基因/蛋白的微小变化可以导致代谢物数十倍浓度变化,更容易检测
- 跨物种通用:同一代谢物(如葡萄糖)在人、鼠、细菌中化学结构完全相同,方便比较
- 直接反映环境影响:饮食、药物、肠道菌群的影响在代谢层面最先体现
2. 靶向 vs 非靶向代谢组学¶
这是代谢组学实验设计的根本分叉点:
| 对比维度 | 靶向代谢组学(Targeted) | 非靶向代谢组学(Untargeted) |
|---|---|---|
| 白话 | "点名抓人":提前列好清单,只测那几十~几百种代谢物 | "大海捞针":不限目标,尽可能测出所有能检测到的代谢物 |
| 检测范围 | 几十~几百种已知化合物 | 数千~上万个特征峰(feature) |
| 定量方式 | 绝对定量(ng/mL),用标准曲线 | 相对定量(峰面积比值) |
| 灵敏度 | 高(专门优化了每个化合物的检测条件) | 中等(通用条件,无法针对优化) |
| 常用技术 | MRM/SRM(多反应监测)模式的三重四极杆质谱 | 高分辨质谱(Q-TOF/Orbitrap)全扫描 |
| 适用场景 | 验证假设、临床检测、药代动力学 | 发现新标志物、探索性研究 |
| 数据分析难度 | 低(化合物身份已知) | 高(需要鉴定未知峰) |
实际研究策略:先用非靶向"撒大网"找到候选差异代谢物,再用靶向"精确验证"浓度变化是否真实。
3. 检测方法对比:NMR vs LC-MS vs GC-MS¶
3.1 三大平台一览¶
| 对比项 | NMR(核磁共振) | LC-MS(液相色谱-质谱) | GC-MS(气相色谱-质谱) |
|---|---|---|---|
| 白话 | "磁铁照相机":用磁场让分子共振,看振动频率 | "先分队再称重":液体跑完色谱柱,挨个称分子量 | "先蒸发再称重":气化后跑色谱柱,再称分子量 |
| 检测原理 | 原子核在磁场中吸收射频能量 | 液相分离 + 电喷雾电离 + 质谱检测 | 气相分离 + 电子轰击电离 + 质谱检测 |
| 灵敏度 | 低(μM级别,~10⁻⁵ M) | 高(nM级别,~10⁻⁹ M) | 高(nM级别) |
| 覆盖范围 | ~50-200种代谢物 | 数千种(极性+非极性) | 数百~千种(挥发性/可衍生化的) |
| 样品前处理 | 极简(几乎不需处理) | 中等(提取、过滤) | 复杂(需衍生化,使化合物挥发) |
| 重复性 | 最好(CV <2%) | 中等(CV 5-20%) | 好(CV 5-15%) |
| 定量 | 天然绝对定量(信号强度正比浓度) | 需标准品/标准曲线 | 需标准品/标准曲线 |
| 样品是否破坏 | 无损(可回收) | 破坏 | 破坏 |
| 适合检测 | 高丰度极性代谢物(氨基酸、有机酸、糖类) | 几乎所有类型代谢物 | 挥发性化合物、脂肪酸、SCFA |
| 缺点 | 灵敏度低,低丰度物质测不到 | 离子抑制、基质效应 | 需衍生化,非挥发性物质测不了 |
3.2 如何选择平台¶
你的研究问题是什么?
│
├── 需要快速、无损、高重复性的代谢指纹 → NMR
│
├── 需要尽可能多地检测代谢物(非靶向发现)→ LC-MS(首选)
│
├── 需要检测SCFA/挥发性有机物/脂肪酸 → GC-MS
│
└── 高通量临床大队列 → NMR(标准化好)或 LC-MS(灵敏度高)
4. 代谢组数据分析流程¶
完整的数据分析流水线:
原始数据(.raw/.mzML/.mzXML)
│
▼
[Step 1] 峰提取/特征检测(Feature Detection)
│ - 从连续信号中找到离散的"峰"
│ - 每个峰 = 一个潜在代谢物特征(m/z + 保留时间 RT)
▼
[Step 2] 峰对齐(Alignment)
│ - 校正不同样品间保留时间的漂移
│ - 确保同一代谢物在所有样品中对应同一行
▼
[Step 3] 峰填充/缺失值处理(Gap Filling)
│ - 补回因噪声被遗漏的峰
│ - 最小值/KNN/随机森林填充
▼
[Step 4] 标准化/归一化(Normalization)
│ - 去除系统偏差(样品量差异、仪器漂移等)
│ - 常用方法:总峰面积归一化、中位数归一化、
│ 内标归一化、PQN、LOESS信号校正
▼
[Step 5] 数据转换(Transformation)
│ - Log转换:减少数据偏度
│ - Pareto scaling:除以标准差的平方根
│ - Auto scaling:标准化到均值0、方差1
▼
[Step 6] 多元统计分析(Multivariate Analysis)
│ ├── PCA(主成分分析)— 无监督,看整体分布和离群样品
│ ├── PLS-DA(偏最小二乘判别分析)— 有监督,找组间差异方向
│ └── OPLS-DA(正交PLS-DA)— 去除组内变异,更聚焦组间差异
▼
[Step 7] 差异代谢物筛选
│ - 标准:VIP > 1(PLS-DA中变量重要性)
│ + p-value < 0.05(t检验/Mann-Whitney U)
│ + Fold Change > 1.5 或 < 0.67
│ - 火山图(Volcano Plot)可视化
▼
[Step 8] 代谢物鉴定(Identification)
│ - Level 1:与标准品比对(RT + MS/MS一致)
│ - Level 2:与数据库谱图匹配(HMDB/METLIN/MassBank)
│ - Level 3:仅基于精确质量推测分子式
▼
[Step 9] 通路分析(Pathway Analysis)
│ - 富集分析:差异代谢物是否集中在某条通路
│ - 拓扑分析:考虑代谢物在通路网络中的位置重要性
│ - 常用数据库:KEGG、MetaCyc、Reactome
▼
[结果解读] 生物学意义 → 实验验证
4.1 关键步骤详解¶
PCA(主成分分析)¶
白话:把几千维的数据压缩到2-3维画在纸上
如果两组样品自然分开了,说明代谢谱确实有差异
作用:
- 质控(QC样品是否聚在一起?)
- 发现批次效应
- 观察组间趋势
注意:PCA是无监督的,分不开不代表没差异(可能差异在更多维度上)
PLS-DA(偏最小二乘判别分析)¶
白话:跟PCA的区别是"我告诉算法哪个是疾病组、哪个是对照组"
算法就专门找能区分两组的方向
关键指标:
- R²X:模型对X(代谢物数据)的解释度
- R²Y:模型对Y(分组标签)的解释度
- Q²:交叉验证的预测能力(Q² > 0.5 通常认为模型可靠)
- VIP值:每个变量对分组的贡献度(VIP > 1 认为重要)
验证方法:
- 置换检验(Permutation test, n=200次)
- 如果R²和Q²都显著高于随机模型,模型才可信
5. 常用工具¶
5.1 数据处理工具¶
| 工具 | 类型 | 功能 | 适用场景 |
|---|---|---|---|
| XCMS | R包/在线版 | 峰提取、对齐、差异分析 | LC-MS/GC-MS非靶向数据处理的金标准 |
| MZmine 4 | Java桌面软件 | 峰检测、对齐、可视化、鉴定 | 开源替代XCMS,GUI友好 |
| MS-DIAL | 桌面软件 | DIA数据处理、脂质组学 | 非靶向+脂质组学 |
| MetaboAnalyst 6.0 | 在线平台 | 统计分析、通路分析、富集分析 | 一站式统计+可视化(最推荐入门) |
| GNPS | 在线平台 | 分子网络、谱图库搜索 | 未知化合物鉴定、天然产物 |
| SIRIUS | 桌面软件 | 从MS/MS预测分子式和结构 | 未知代谢物结构推断 |
5.2 XCMS基本使用流程(R代码示例)¶
# 安装XCMS(Bioconductor包)
# BiocManager::install("xcms")
library(xcms) # 加载XCMS包
# 1. 读入原始数据(.mzML格式)
raw_data <- readMSData(
files = list.files("data/", pattern = ".mzML", full.names = TRUE), # 读取所有mzML文件
mode = "onDisk" # 不全部载入内存,节省RAM
)
# 2. 峰提取(CentWave算法)
cwp <- CentWaveParam(
peakwidth = c(5, 30), # 峰宽范围(秒):代谢物峰通常5-30秒
ppm = 10, # 质量偏差容许范围(百万分之十)
snthresh = 5 # 信噪比阈值:信号需 ≥ 5倍噪声
)
xdata <- findChromPeaks(raw_data, param = cwp) # 执行峰提取
# 3. 峰对齐(OBI-Warp算法)
xdata <- adjustRtime(xdata, param = ObiwarpParam()) # 保留时间校正
# 4. 峰分组(对应不同样品中相同代谢物)
pdp <- PeakDensityParam(
sampleGroups = sampleData(xdata)$group, # 样品分组信息
bw = 5, # 峰密度估计带宽
minFraction = 0.5 # 至少50%样品中要检测到这个峰
)
xdata <- groupChromPeaks(xdata, param = pdp) # 执行分组
# 5. 缺失值填充
xdata <- fillChromPeaks(xdata) # 回到原始数据中补回缺失峰
# 6. 导出特征矩阵
feature_table <- featureValues(xdata, value = "into") # 峰面积矩阵
# 行 = 特征(m/z_RT),列 = 样品
5.3 MetaboAnalyst在线分析流程¶
1. 上传数据(CSV格式:行=样品,列=代谢物,第一列=分组标签)
2. 数据过滤 → 缺失值处理 → 归一化 → 转换 → 缩放
3. 统计分析:PCA、PLS-DA、热图、火山图
4. 富集分析:选择物种 → 选择通路库 → 运行
5. 通路分析:同时考虑富集和拓扑重要性
6. 下载报告(PDF + CSV)
网址:https://www.metaboanalyst.ca (免费,无需注册即可使用基本功能)
5.4 GNPS分子网络¶
白话:把所有MS/MS谱图按相似度"连线",相似的谱图连在一起形成"网络"
同一族的化合物(如不同的胆汁酸)会聚成一个小团
核心概念:
- Cosine Score(余弦相似度):两张谱图有多像,>0.7认为相关
- 分子网络图(Molecular Network):节点=代谢物,边=谱图相似
- 类比:社交网络中,朋友圈相似的人容易被归为同一社群
6. 代谢通路数据库¶
| 数据库 | 内容 | 特点 | 网址 |
|---|---|---|---|
| KEGG | 代谢通路图谱、酶、化合物 | 最广泛使用,手工注释,通路图直观 | https://www.kegg.jp |
| HMDB | 人类代谢物百科全书 | 22万+代谢物条目,含谱图数据、浓度范围、疾病关联 | https://hmdb.ca |
| MetaCyc | 跨物种代谢通路 | 2,800+通路来自3,100+物种,适合微生物代谢研究 | https://metacyc.org |
| METLIN | MS/MS谱图库 | 96万+化合物谱图,用于代谢物鉴定 | https://metlin.scripps.edu |
| LipidMaps | 脂质专用数据库 | 脂质分类、结构、通路 | https://lipidmaps.org |
| MassBank | 开放质谱库 | 社区贡献谱图,跨平台 | https://massbank.eu |
KEGG通路分析白话理解¶
KEGG通路图就像一张"代谢地铁图":
- 车站 = 代谢物(化合物)
- 地铁线路 = 代谢通路
- 换乘站 = 参与多条通路的关键代谢物
你的差异代谢物如果集中在某条"线路"上,说明这条通路被疾病影响了。
常见代谢通路举例:
- 糖酵解/糖异生(Glycolysis/Gluconeogenesis)
- TCA循环(Citrate Cycle)
- 氨基酸代谢(各种氨基酸的合成和降解)
- 脂肪酸代谢(β-氧化等)
- 胆汁酸合成(Bile acid biosynthesis)
- 色氨酸代谢(Tryptophan metabolism)
7. 与T2D肠道菌群项目的关联¶
7.1 三大菌群来源代谢物¶
| 代谢物类别 | 代表物 | 产生菌 | 与T2D的关系 |
|---|---|---|---|
| SCFA(短链脂肪酸) | 乙酸(Acetate)、丙酸(Propionate)、丁酸(Butyrate) | Faecalibacterium、Roseburia、Bifidobacterium等 | T2D患者SCFA↓ → 肠屏障损伤 → 炎症 → 胰岛素抵抗 |
| 胆汁酸(Bile Acids) | 次级胆汁酸(DCA、LCA) | Clostridium、Bacteroides | 菌群通过BSH酶解偶联初级胆汁酸 → 影响FXR/TGR5受体 → 调控糖脂代谢 |
| TMAO(氧化三甲胺) | TMAO | 含cutC基因的菌(如某些Clostridium) | 食物中胆碱/肉碱 → 菌群产TMA → 肝脏氧化为TMAO → 促进动脉粥样硬化和胰岛素抵抗 |
7.2 SCFA详解¶
膳食纤维 → 肠道菌群发酵 → SCFA(乙酸60%、丙酸25%、丁酸15%)
SCFA的保护机制:
1. 丁酸 → 肠上皮细胞的主要能量来源 → 维护肠屏障完整
2. 丙酸 → 肝脏糖异生底物 → 调节血糖
3. 乙酸/丙酸 → 激活GPR41/GPR43受体 → 促进GLP-1分泌 → 改善胰岛素敏感性
4. SCFA → 抑制NF-κB → 减少炎症因子
T2D中:产SCFA的菌(Faecalibacterium prausnitzii等)减少
→ SCFA产量下降 → 肠屏障受损 → LPS入血 → 慢性低度炎症 → 胰岛素抵抗
7.3 在该项目中如何提及¶
面试时可以这样串联:
"该项目用宏基因组数据发现T2D患者肠道中产丁酸菌(如 Faecalibacterium、Roseburia)显著减少。如果后续结合代谢组学验证,可以用GC-MS靶向检测粪便中SCFA浓度,或者用LC-MS非靶向检测血浆中胆汁酸和TMAO水平,从'菌群组成变化→代谢产物变化→宿主表型变化'的完整链条来验证因果关系。"
8. 面试怎么答(5道高频题)¶
Q1:什么是代谢组学?和其他组学有什么区别?¶
参考答案: 代谢组学是研究生物体内所有小分子代谢物(<1.5 kDa)的学科。和基因组(DNA)、转录组(mRNA)、蛋白质组(蛋白质)相比,代谢组处于最下游,是基因表达的最终"功能读出"。它有三个独特优势:(1) 最接近表型,能直接反映生理状态;(2) 有放大效应,微小的基因变化可导致代谢物数十倍变化;(3) 跨物种通用,同一代谢物化学结构相同。
Q2:靶向和非靶向代谢组学的区别?什么时候用哪种?¶
参考答案: 靶向像"体检项目单"——提前定好检测哪些代谢物,用三重四极杆的MRM模式做绝对定量,灵敏准确但范围有限。非靶向像"全身CT"——用高分辨质谱做全扫描,能发现未知标志物但只是相对定量。策略上,先非靶向发现候选标志物,再靶向验证浓度变化。
Q3:代谢组学常用的统计方法有哪些?PCA和PLS-DA有什么区别?¶
参考答案: 常用PCA、PLS-DA和OPLS-DA三种多元统计方法。PCA是无监督方法,不告诉算法分组信息,用于看数据整体分布、发现离群样品和批次效应。PLS-DA是有监督方法,输入分组标签后专门找最大化组间差异的方向。PLS-DA的模型需要通过置换检验(permutation test)和交叉验证(Q² > 0.5)来确认不是过拟合。筛选差异代谢物时用VIP > 1结合p-value < 0.05和FC > 1.5的组合标准。
Q4:代谢组学数据分析的完整流程是什么?¶
参考答案: (1) 原始数据转换为mzML格式;(2) 用XCMS或MZmine做峰提取(CentWave算法);(3) 保留时间对齐(OBI-Warp);(4) 峰分组和缺失值填充;(5) 归一化(总面积/中位数/PQN)和Log转换;(6) 多元统计分析(PCA质控→PLS-DA分组→VIP+p-value筛选差异代谢物);(7) 代谢物鉴定(精确质量+MS/MS比对HMDB/METLIN);(8) 通路富集分析(KEGG/MetaCyc)。
Q5:肠道菌群代谢物SCFA与T2D有什么关系?如何用代谢组学检测?¶
参考答案: T2D患者肠道中产丁酸菌(Faecalibacterium、Roseburia)减少,导致SCFA(尤其丁酸)产量下降。丁酸是结肠上皮细胞的主要能源,缺乏导致肠屏障损伤→LPS入血→慢性炎症→胰岛素抵抗。SCFA检测首选GC-MS(因为SCFA是挥发性小分子),粪便样品经酸化后直接进样或用乙醚萃取。也可用GC-FID做快速定量。定量指标包括乙酸、丙酸、丁酸的绝对浓度和比例。
9. 速查表¶
代谢组学核心概念速查¶
| 术语 | 英文 | 白话解释 |
|---|---|---|
| 代谢组 | Metabolome | 某一时刻所有小分子的集合 |
| Feature | Feature | 一个峰(m/z + RT组合),代表一个潜在代谢物 |
| 峰提取 | Peak picking / Feature detection | 从连续信号中找出离散峰 |
| 保留时间 | Retention Time (RT) | 化合物在色谱柱中跑完需要的时间 |
| m/z | Mass-to-charge ratio | 质荷比,质谱仪实际测量的物理量 |
| 加合离子 | Adduct ion | [M+H]⁺、[M+Na]⁺等,同一物质不同带电形式 |
| VIP | Variable Importance in Projection | PLS-DA中变量重要性得分,>1为重要 |
| FC | Fold Change | 组间浓度倍数变化 |
| PQN | Probabilistic Quotient Normalization | 基于参考样品的归一化方法 |
| QC样品 | Quality Control | 所有样品等量混合,监控仪器稳定性 |
| Level 1-4鉴定 | Identification levels | 代谢物鉴定可信度等级(1最高:有标准品) |
工具选择速查¶
| 任务 | 推荐工具 |
|---|---|
| LC-MS/GC-MS原始数据处理 | XCMS(R)、MZmine 4(GUI) |
| 统计分析+通路分析 | MetaboAnalyst 6.0 |
| 代谢物鉴定(MS/MS) | METLIN、HMDB、GNPS |
| 分子网络/未知化合物 | GNPS、SIRIUS |
| 通路可视化 | KEGG Mapper、MetPA(MetaboAnalyst内置) |
| SCFA定量 | GC-MS / GC-FID |
| 脂质组学 | MS-DIAL、LipidSearch |
数据格式速查¶
| 格式 | 说明 |
|---|---|
| .raw | Thermo仪器原始数据 |
| .wiff | AB SCIEX仪器原始数据 |
| .mzML | 开放格式(推荐),ProteoWizard转换 |
| .mzXML | 较老的开放格式 |
| .mgf | MS/MS谱图文本格式,GNPS使用 |
| .csv | MetaboAnalyst等统计工具的输入格式 |
10. 延伸资源¶
入门推荐¶
- MetaboAnalyst教程:https://www.metaboanalyst.ca/MetaboAnalyst/docs/Tutorials.xhtml (官方教学,从上传数据到出图)
- XCMS文档:Bioconductor XCMS vignette(R用户必看)
- Metabolomics Society: https://metabolomics-society.org (学术会议、标准制定)
经典文献¶
- Wishart DS (2007) "The Human Metabolome" - HMDB创建者的奠基论文
- Smith CA et al. (2006) "XCMS: Processing Mass Spectrometry Data" - XCMS原始论文
- Patti GJ et al. (2012) "Metabolomics: the apogee of the omics trilogy" - Nature Reviews MCB综述
与T2D相关的代谢组学文献¶
- Pedersen HK et al. (2016) "Human gut microbes impact host serum metabolome and insulin sensitivity" - Nature
- Canfora EE et al. (2015) "Short-chain fatty acids in control of body weight and insulin sensitivity" - Nature Reviews Endocrinology
- Tang WHW et al. (2013) "Intestinal microbial metabolism of phosphatidylcholine and cardiovascular risk" - NEJM(TMAO里程碑论文)
视频教程¶
- YouTube: "MetaboAnalyst Tutorial" 系列(官方频道)
- Bilibili: 搜索"代谢组学数据分析"有中文教程
与蛋白质组学37篇的区别:蛋白质组学研究的是大分子蛋白质(>10 kDa),用串联质谱做肽段碎裂鉴定序列;代谢组学研究的是小分子代谢物(<1.5 kDa),用精确质量和MS/MS谱图比对数据库鉴定。蛋白质组关注"谁在执行功能",代谢组关注"功能执行后产生了什么结果"。