跳转至

代谢组学基础与数据分析(Metabolomics)


一句话说明

代谢组学就是大规模研究一个细胞/组织/生物体里所有小分子代谢物(<1.5 kDa)的种类和数量变化——如果基因组是"菜谱"、蛋白质组是"厨师做的菜",那代谢组就是"菜做完后厨房里弥漫的味道和产生的营养物质",它最直接反映生物体此刻的生理状态。


1. 什么是代谢组学

1.1 定义

代谢组学(Metabolomics)是对代谢组(metabolome)进行系统研究的学科。代谢组指一个生物样本中所有小分子代谢物的集合,包括氨基酸、脂肪酸、糖类、有机酸、核苷酸等。

来源:Wikipedia - "Metabolomics is the scientific study of chemical processes involving metabolites, the small molecule substrates, intermediates, and products of cell metabolism."

1.2 白话理解

概念白话
代谢物(Metabolite)细胞工厂的"产品"和"半成品",分子量通常 <1500 Da
代谢组(Metabolome)一个生物体某一时刻所有小分子产物的"全家福照片"
代谢组学(Metabolomics)给这张"全家福"拍照、比较、找规律的技术

1.3 代谢组学在"多组学"中的位置

DNA(基因组)→ mRNA(转录组)→ 蛋白质(蛋白质组)→ 代谢物(代谢组)
    菜谱          抄写的菜单       厨师做出的菜          菜的味道/营养

         上游(信息层)  ──────────────────→  下游(功能层)

关键区别:蛋白质组研究的是"做菜的厨师"(功能执行者),代谢组研究的是"菜做出来后产生的最终产物"(代谢终端)。代谢组是最接近表型(phenotype)的组学层次。

1.4 为什么需要代谢组学?

  • 离表型最近:基因变化不一定导致表型变化,但代谢物变化几乎一定伴随表型改变
  • 放大效应:一个基因/蛋白的微小变化可以导致代谢物数十倍浓度变化,更容易检测
  • 跨物种通用:同一代谢物(如葡萄糖)在人、鼠、细菌中化学结构完全相同,方便比较
  • 直接反映环境影响:饮食、药物、肠道菌群的影响在代谢层面最先体现

2. 靶向 vs 非靶向代谢组学

这是代谢组学实验设计的根本分叉点:

对比维度靶向代谢组学(Targeted)非靶向代谢组学(Untargeted)
白话"点名抓人":提前列好清单,只测那几十~几百种代谢物"大海捞针":不限目标,尽可能测出所有能检测到的代谢物
检测范围几十~几百种已知化合物数千~上万个特征峰(feature)
定量方式绝对定量(ng/mL),用标准曲线相对定量(峰面积比值)
灵敏度高(专门优化了每个化合物的检测条件)中等(通用条件,无法针对优化)
常用技术MRM/SRM(多反应监测)模式的三重四极杆质谱高分辨质谱(Q-TOF/Orbitrap)全扫描
适用场景验证假设、临床检测、药代动力学发现新标志物、探索性研究
数据分析难度低(化合物身份已知)高(需要鉴定未知峰)

实际研究策略:先用非靶向"撒大网"找到候选差异代谢物,再用靶向"精确验证"浓度变化是否真实。


3. 检测方法对比:NMR vs LC-MS vs GC-MS

3.1 三大平台一览

对比项NMR(核磁共振)LC-MS(液相色谱-质谱)GC-MS(气相色谱-质谱)
白话"磁铁照相机":用磁场让分子共振,看振动频率"先分队再称重":液体跑完色谱柱,挨个称分子量"先蒸发再称重":气化后跑色谱柱,再称分子量
检测原理原子核在磁场中吸收射频能量液相分离 + 电喷雾电离 + 质谱检测气相分离 + 电子轰击电离 + 质谱检测
灵敏度(μM级别,~10⁻⁵ M)(nM级别,~10⁻⁹ M)(nM级别)
覆盖范围~50-200种代谢物数千种(极性+非极性)数百~千种(挥发性/可衍生化的)
样品前处理极简(几乎不需处理)中等(提取、过滤)复杂(需衍生化,使化合物挥发)
重复性最好(CV <2%)中等(CV 5-20%)好(CV 5-15%)
定量天然绝对定量(信号强度正比浓度)需标准品/标准曲线需标准品/标准曲线
样品是否破坏无损(可回收)破坏破坏
适合检测高丰度极性代谢物(氨基酸、有机酸、糖类)几乎所有类型代谢物挥发性化合物、脂肪酸、SCFA
缺点灵敏度低,低丰度物质测不到离子抑制、基质效应需衍生化,非挥发性物质测不了

3.2 如何选择平台

你的研究问题是什么?
├── 需要快速、无损、高重复性的代谢指纹  → NMR
├── 需要尽可能多地检测代谢物(非靶向发现)→ LC-MS(首选)
├── 需要检测SCFA/挥发性有机物/脂肪酸  → GC-MS
└── 高通量临床大队列  → NMR(标准化好)或 LC-MS(灵敏度高)

4. 代谢组数据分析流程

完整的数据分析流水线:

原始数据(.raw/.mzML/.mzXML)
[Step 1] 峰提取/特征检测(Feature Detection)
    │   - 从连续信号中找到离散的"峰"
    │   - 每个峰 = 一个潜在代谢物特征(m/z + 保留时间 RT)
[Step 2] 峰对齐(Alignment)
    │   - 校正不同样品间保留时间的漂移
    │   - 确保同一代谢物在所有样品中对应同一行
[Step 3] 峰填充/缺失值处理(Gap Filling)
    │   - 补回因噪声被遗漏的峰
    │   - 最小值/KNN/随机森林填充
[Step 4] 标准化/归一化(Normalization)
    │   - 去除系统偏差(样品量差异、仪器漂移等)
    │   - 常用方法:总峰面积归一化、中位数归一化、
    │     内标归一化、PQN、LOESS信号校正
[Step 5] 数据转换(Transformation)
    │   - Log转换:减少数据偏度
    │   - Pareto scaling:除以标准差的平方根
    │   - Auto scaling:标准化到均值0、方差1
[Step 6] 多元统计分析(Multivariate Analysis)
    │   ├── PCA(主成分分析)— 无监督,看整体分布和离群样品
    │   ├── PLS-DA(偏最小二乘判别分析)— 有监督,找组间差异方向
    │   └── OPLS-DA(正交PLS-DA)— 去除组内变异,更聚焦组间差异
[Step 7] 差异代谢物筛选
    │   - 标准:VIP > 1(PLS-DA中变量重要性)
    │           + p-value < 0.05(t检验/Mann-Whitney U)
    │           + Fold Change > 1.5 或 < 0.67
    │   - 火山图(Volcano Plot)可视化
[Step 8] 代谢物鉴定(Identification)
    │   - Level 1:与标准品比对(RT + MS/MS一致)
    │   - Level 2:与数据库谱图匹配(HMDB/METLIN/MassBank)
    │   - Level 3:仅基于精确质量推测分子式
[Step 9] 通路分析(Pathway Analysis)
    │   - 富集分析:差异代谢物是否集中在某条通路
    │   - 拓扑分析:考虑代谢物在通路网络中的位置重要性
    │   - 常用数据库:KEGG、MetaCyc、Reactome
[结果解读] 生物学意义 → 实验验证

4.1 关键步骤详解

PCA(主成分分析)

白话:把几千维的数据压缩到2-3维画在纸上
      如果两组样品自然分开了,说明代谢谱确实有差异

作用:
- 质控(QC样品是否聚在一起?)
- 发现批次效应
- 观察组间趋势

注意:PCA是无监督的,分不开不代表没差异(可能差异在更多维度上)

PLS-DA(偏最小二乘判别分析)

白话:跟PCA的区别是"我告诉算法哪个是疾病组、哪个是对照组"
      算法就专门找能区分两组的方向

关键指标:
- R²X:模型对X(代谢物数据)的解释度
- R²Y:模型对Y(分组标签)的解释度
- Q²:交叉验证的预测能力(Q² > 0.5 通常认为模型可靠)
- VIP值:每个变量对分组的贡献度(VIP > 1 认为重要)

验证方法:
- 置换检验(Permutation test, n=200次)
- 如果R²和Q²都显著高于随机模型,模型才可信

5. 常用工具

5.1 数据处理工具

工具类型功能适用场景
XCMSR包/在线版峰提取、对齐、差异分析LC-MS/GC-MS非靶向数据处理的金标准
MZmine 4Java桌面软件峰检测、对齐、可视化、鉴定开源替代XCMS,GUI友好
MS-DIAL桌面软件DIA数据处理、脂质组学非靶向+脂质组学
MetaboAnalyst 6.0在线平台统计分析、通路分析、富集分析一站式统计+可视化(最推荐入门)
GNPS在线平台分子网络、谱图库搜索未知化合物鉴定、天然产物
SIRIUS桌面软件从MS/MS预测分子式和结构未知代谢物结构推断

5.2 XCMS基本使用流程(R代码示例)

# 安装XCMS(Bioconductor包)
# BiocManager::install("xcms")

library(xcms)  # 加载XCMS包

# 1. 读入原始数据(.mzML格式)
raw_data <- readMSData(
  files = list.files("data/", pattern = ".mzML", full.names = TRUE),  # 读取所有mzML文件
  mode = "onDisk"  # 不全部载入内存,节省RAM
)

# 2. 峰提取(CentWave算法)
cwp <- CentWaveParam(
  peakwidth = c(5, 30),  # 峰宽范围(秒):代谢物峰通常5-30秒
  ppm = 10,              # 质量偏差容许范围(百万分之十)
  snthresh = 5           # 信噪比阈值:信号需 ≥ 5倍噪声
)
xdata <- findChromPeaks(raw_data, param = cwp)  # 执行峰提取

# 3. 峰对齐(OBI-Warp算法)
xdata <- adjustRtime(xdata, param = ObiwarpParam())  # 保留时间校正

# 4. 峰分组(对应不同样品中相同代谢物)
pdp <- PeakDensityParam(
  sampleGroups = sampleData(xdata)$group,  # 样品分组信息
  bw = 5,               # 峰密度估计带宽
  minFraction = 0.5     # 至少50%样品中要检测到这个峰
)
xdata <- groupChromPeaks(xdata, param = pdp)  # 执行分组

# 5. 缺失值填充
xdata <- fillChromPeaks(xdata)  # 回到原始数据中补回缺失峰

# 6. 导出特征矩阵
feature_table <- featureValues(xdata, value = "into")  # 峰面积矩阵
# 行 = 特征(m/z_RT),列 = 样品

5.3 MetaboAnalyst在线分析流程

1. 上传数据(CSV格式:行=样品,列=代谢物,第一列=分组标签)
2. 数据过滤 → 缺失值处理 → 归一化 → 转换 → 缩放
3. 统计分析:PCA、PLS-DA、热图、火山图
4. 富集分析:选择物种 → 选择通路库 → 运行
5. 通路分析:同时考虑富集和拓扑重要性
6. 下载报告(PDF + CSV)

网址:https://www.metaboanalyst.ca (免费,无需注册即可使用基本功能)

5.4 GNPS分子网络

白话:把所有MS/MS谱图按相似度"连线",相似的谱图连在一起形成"网络"
      同一族的化合物(如不同的胆汁酸)会聚成一个小团

核心概念:
- Cosine Score(余弦相似度):两张谱图有多像,>0.7认为相关
- 分子网络图(Molecular Network):节点=代谢物,边=谱图相似
- 类比:社交网络中,朋友圈相似的人容易被归为同一社群

6. 代谢通路数据库

数据库内容特点网址
KEGG代谢通路图谱、酶、化合物最广泛使用,手工注释,通路图直观https://www.kegg.jp
HMDB人类代谢物百科全书22万+代谢物条目,含谱图数据、浓度范围、疾病关联https://hmdb.ca
MetaCyc跨物种代谢通路2,800+通路来自3,100+物种,适合微生物代谢研究https://metacyc.org
METLINMS/MS谱图库96万+化合物谱图,用于代谢物鉴定https://metlin.scripps.edu
LipidMaps脂质专用数据库脂质分类、结构、通路https://lipidmaps.org
MassBank开放质谱库社区贡献谱图,跨平台https://massbank.eu

KEGG通路分析白话理解

KEGG通路图就像一张"代谢地铁图":
- 车站 = 代谢物(化合物)
- 地铁线路 = 代谢通路
- 换乘站 = 参与多条通路的关键代谢物

你的差异代谢物如果集中在某条"线路"上,说明这条通路被疾病影响了。

常见代谢通路举例:
- 糖酵解/糖异生(Glycolysis/Gluconeogenesis)
- TCA循环(Citrate Cycle)
- 氨基酸代谢(各种氨基酸的合成和降解)
- 脂肪酸代谢(β-氧化等)
- 胆汁酸合成(Bile acid biosynthesis)
- 色氨酸代谢(Tryptophan metabolism)

7. 与T2D肠道菌群项目的关联

7.1 三大菌群来源代谢物

代谢物类别代表物产生菌与T2D的关系
SCFA(短链脂肪酸)乙酸(Acetate)、丙酸(Propionate)、丁酸(Butyrate)Faecalibacterium、Roseburia、Bifidobacterium等T2D患者SCFA↓ → 肠屏障损伤 → 炎症 → 胰岛素抵抗
胆汁酸(Bile Acids)次级胆汁酸(DCA、LCA)Clostridium、Bacteroides菌群通过BSH酶解偶联初级胆汁酸 → 影响FXR/TGR5受体 → 调控糖脂代谢
TMAO(氧化三甲胺)TMAO含cutC基因的菌(如某些Clostridium)食物中胆碱/肉碱 → 菌群产TMA → 肝脏氧化为TMAO → 促进动脉粥样硬化和胰岛素抵抗

7.2 SCFA详解

膳食纤维 → 肠道菌群发酵 → SCFA(乙酸60%、丙酸25%、丁酸15%)

SCFA的保护机制:
1. 丁酸 → 肠上皮细胞的主要能量来源 → 维护肠屏障完整
2. 丙酸 → 肝脏糖异生底物 → 调节血糖
3. 乙酸/丙酸 → 激活GPR41/GPR43受体 → 促进GLP-1分泌 → 改善胰岛素敏感性
4. SCFA → 抑制NF-κB → 减少炎症因子

T2D中:产SCFA的菌(Faecalibacterium prausnitzii等)减少 
       → SCFA产量下降 → 肠屏障受损 → LPS入血 → 慢性低度炎症 → 胰岛素抵抗

7.3 在该项目中如何提及

面试时可以这样串联:

"该项目用宏基因组数据发现T2D患者肠道中产丁酸菌(如 FaecalibacteriumRoseburia)显著减少。如果后续结合代谢组学验证,可以用GC-MS靶向检测粪便中SCFA浓度,或者用LC-MS非靶向检测血浆中胆汁酸和TMAO水平,从'菌群组成变化→代谢产物变化→宿主表型变化'的完整链条来验证因果关系。"


8. 面试怎么答(5道高频题)

Q1:什么是代谢组学?和其他组学有什么区别?

参考答案: 代谢组学是研究生物体内所有小分子代谢物(<1.5 kDa)的学科。和基因组(DNA)、转录组(mRNA)、蛋白质组(蛋白质)相比,代谢组处于最下游,是基因表达的最终"功能读出"。它有三个独特优势:(1) 最接近表型,能直接反映生理状态;(2) 有放大效应,微小的基因变化可导致代谢物数十倍变化;(3) 跨物种通用,同一代谢物化学结构相同。


Q2:靶向和非靶向代谢组学的区别?什么时候用哪种?

参考答案: 靶向像"体检项目单"——提前定好检测哪些代谢物,用三重四极杆的MRM模式做绝对定量,灵敏准确但范围有限。非靶向像"全身CT"——用高分辨质谱做全扫描,能发现未知标志物但只是相对定量。策略上,先非靶向发现候选标志物,再靶向验证浓度变化。


Q3:代谢组学常用的统计方法有哪些?PCA和PLS-DA有什么区别?

参考答案: 常用PCA、PLS-DA和OPLS-DA三种多元统计方法。PCA是无监督方法,不告诉算法分组信息,用于看数据整体分布、发现离群样品和批次效应。PLS-DA是有监督方法,输入分组标签后专门找最大化组间差异的方向。PLS-DA的模型需要通过置换检验(permutation test)和交叉验证(Q² > 0.5)来确认不是过拟合。筛选差异代谢物时用VIP > 1结合p-value < 0.05和FC > 1.5的组合标准。


Q4:代谢组学数据分析的完整流程是什么?

参考答案: (1) 原始数据转换为mzML格式;(2) 用XCMS或MZmine做峰提取(CentWave算法);(3) 保留时间对齐(OBI-Warp);(4) 峰分组和缺失值填充;(5) 归一化(总面积/中位数/PQN)和Log转换;(6) 多元统计分析(PCA质控→PLS-DA分组→VIP+p-value筛选差异代谢物);(7) 代谢物鉴定(精确质量+MS/MS比对HMDB/METLIN);(8) 通路富集分析(KEGG/MetaCyc)。


Q5:肠道菌群代谢物SCFA与T2D有什么关系?如何用代谢组学检测?

参考答案: T2D患者肠道中产丁酸菌(Faecalibacterium、Roseburia)减少,导致SCFA(尤其丁酸)产量下降。丁酸是结肠上皮细胞的主要能源,缺乏导致肠屏障损伤→LPS入血→慢性炎症→胰岛素抵抗。SCFA检测首选GC-MS(因为SCFA是挥发性小分子),粪便样品经酸化后直接进样或用乙醚萃取。也可用GC-FID做快速定量。定量指标包括乙酸、丙酸、丁酸的绝对浓度和比例。


9. 速查表

代谢组学核心概念速查

术语英文白话解释
代谢组Metabolome某一时刻所有小分子的集合
FeatureFeature一个峰(m/z + RT组合),代表一个潜在代谢物
峰提取Peak picking / Feature detection从连续信号中找出离散峰
保留时间Retention Time (RT)化合物在色谱柱中跑完需要的时间
m/zMass-to-charge ratio质荷比,质谱仪实际测量的物理量
加合离子Adduct ion[M+H]⁺、[M+Na]⁺等,同一物质不同带电形式
VIPVariable Importance in ProjectionPLS-DA中变量重要性得分,>1为重要
FCFold Change组间浓度倍数变化
PQNProbabilistic Quotient Normalization基于参考样品的归一化方法
QC样品Quality Control所有样品等量混合,监控仪器稳定性
Level 1-4鉴定Identification levels代谢物鉴定可信度等级(1最高:有标准品)

工具选择速查

任务推荐工具
LC-MS/GC-MS原始数据处理XCMS(R)、MZmine 4(GUI)
统计分析+通路分析MetaboAnalyst 6.0
代谢物鉴定(MS/MS)METLIN、HMDB、GNPS
分子网络/未知化合物GNPS、SIRIUS
通路可视化KEGG Mapper、MetPA(MetaboAnalyst内置)
SCFA定量GC-MS / GC-FID
脂质组学MS-DIAL、LipidSearch

数据格式速查

格式说明
.rawThermo仪器原始数据
.wiffAB SCIEX仪器原始数据
.mzML开放格式(推荐),ProteoWizard转换
.mzXML较老的开放格式
.mgfMS/MS谱图文本格式,GNPS使用
.csvMetaboAnalyst等统计工具的输入格式

10. 延伸资源

入门推荐

  • MetaboAnalyst教程:https://www.metaboanalyst.ca/MetaboAnalyst/docs/Tutorials.xhtml (官方教学,从上传数据到出图)
  • XCMS文档:Bioconductor XCMS vignette(R用户必看)
  • Metabolomics Society: https://metabolomics-society.org (学术会议、标准制定)

经典文献

  • Wishart DS (2007) "The Human Metabolome" - HMDB创建者的奠基论文
  • Smith CA et al. (2006) "XCMS: Processing Mass Spectrometry Data" - XCMS原始论文
  • Patti GJ et al. (2012) "Metabolomics: the apogee of the omics trilogy" - Nature Reviews MCB综述

与T2D相关的代谢组学文献

  • Pedersen HK et al. (2016) "Human gut microbes impact host serum metabolome and insulin sensitivity" - Nature
  • Canfora EE et al. (2015) "Short-chain fatty acids in control of body weight and insulin sensitivity" - Nature Reviews Endocrinology
  • Tang WHW et al. (2013) "Intestinal microbial metabolism of phosphatidylcholine and cardiovascular risk" - NEJM(TMAO里程碑论文)

视频教程

  • YouTube: "MetaboAnalyst Tutorial" 系列(官方频道)
  • Bilibili: 搜索"代谢组学数据分析"有中文教程

与蛋白质组学37篇的区别:蛋白质组学研究的是大分子蛋白质(>10 kDa),用串联质谱做肽段碎裂鉴定序列;代谢组学研究的是小分子代谢物(<1.5 kDa),用精确质量和MS/MS谱图比对数据库鉴定。蛋白质组关注"谁在执行功能",代谢组关注"功能执行后产生了什么结果"。