代谢组学基础与数据分析（Metabolomics）¶

一句话说明¶

代谢组学就是大规模研究一个细胞/组织/生物体里所有小分子代谢物（<1.5 kDa）的种类和数量变化——如果基因组是"菜谱"、蛋白质组是"厨师做的菜"，那代谢组就是"菜做完后厨房里弥漫的味道和产生的营养物质"，它最直接反映生物体此刻的生理状态。

1. 什么是代谢组学¶

1.1 定义¶

代谢组学（Metabolomics）是对代谢组（metabolome）进行系统研究的学科。代谢组指一个生物样本中所有小分子代谢物的集合，包括氨基酸、脂肪酸、糖类、有机酸、核苷酸等。

来源：Wikipedia - "Metabolomics is the scientific study of chemical processes involving metabolites, the small molecule substrates, intermediates, and products of cell metabolism."

1.2 白话理解¶

概念	白话
代谢物（Metabolite）	细胞工厂的"产品"和"半成品"，分子量通常 <1500 Da
代谢组（Metabolome）	一个生物体某一时刻所有小分子产物的"全家福照片"
代谢组学（Metabolomics）	给这张"全家福"拍照、比较、找规律的技术

1.3 代谢组学在"多组学"中的位置¶

DNA（基因组）→ mRNA（转录组）→ 蛋白质（蛋白质组）→ 代谢物（代谢组）
    菜谱          抄写的菜单       厨师做出的菜          菜的味道/营养

         上游（信息层）  ──────────────────→  下游（功能层）

关键区别：蛋白质组研究的是"做菜的厨师"（功能执行者），代谢组研究的是"菜做出来后产生的最终产物"（代谢终端）。代谢组是最接近表型（phenotype）的组学层次。

1.4 为什么需要代谢组学？¶

离表型最近：基因变化不一定导致表型变化，但代谢物变化几乎一定伴随表型改变
放大效应：一个基因/蛋白的微小变化可以导致代谢物数十倍浓度变化，更容易检测
跨物种通用：同一代谢物（如葡萄糖）在人、鼠、细菌中化学结构完全相同，方便比较
直接反映环境影响：饮食、药物、肠道菌群的影响在代谢层面最先体现

2. 靶向 vs 非靶向代谢组学¶

这是代谢组学实验设计的根本分叉点：

对比维度	靶向代谢组学（Targeted）	非靶向代谢组学（Untargeted）
白话	"点名抓人"：提前列好清单，只测那几十~几百种代谢物	"大海捞针"：不限目标，尽可能测出所有能检测到的代谢物
检测范围	几十~几百种已知化合物	数千~上万个特征峰（feature）
定量方式	绝对定量（ng/mL），用标准曲线	相对定量（峰面积比值）
灵敏度	高（专门优化了每个化合物的检测条件）	中等（通用条件，无法针对优化）
常用技术	MRM/SRM（多反应监测）模式的三重四极杆质谱	高分辨质谱（Q-TOF/Orbitrap）全扫描
适用场景	验证假设、临床检测、药代动力学	发现新标志物、探索性研究
数据分析难度	低（化合物身份已知）	高（需要鉴定未知峰）

实际研究策略：先用非靶向"撒大网"找到候选差异代谢物，再用靶向"精确验证"浓度变化是否真实。

3. 检测方法对比：NMR vs LC-MS vs GC-MS¶

3.1 三大平台一览¶

对比项	NMR（核磁共振）	LC-MS（液相色谱-质谱）	GC-MS（气相色谱-质谱）
白话	"磁铁照相机"：用磁场让分子共振，看振动频率	"先分队再称重"：液体跑完色谱柱，挨个称分子量	"先蒸发再称重"：气化后跑色谱柱，再称分子量
检测原理	原子核在磁场中吸收射频能量	液相分离 + 电喷雾电离 + 质谱检测	气相分离 + 电子轰击电离 + 质谱检测
灵敏度	低（μM级别，~10⁻⁵ M）	高（nM级别，~10⁻⁹ M）	高（nM级别）
覆盖范围	~50-200种代谢物	数千种（极性+非极性）	数百~千种（挥发性/可衍生化的）
样品前处理	极简（几乎不需处理）	中等（提取、过滤）	复杂（需衍生化，使化合物挥发）
重复性	最好（CV <2%）	中等（CV 5-20%）	好（CV 5-15%）
定量	天然绝对定量（信号强度正比浓度）	需标准品/标准曲线	需标准品/标准曲线
样品是否破坏	无损（可回收）	破坏	破坏
适合检测	高丰度极性代谢物（氨基酸、有机酸、糖类）	几乎所有类型代谢物	挥发性化合物、脂肪酸、SCFA
缺点	灵敏度低，低丰度物质测不到	离子抑制、基质效应	需衍生化，非挥发性物质测不了

3.2 如何选择平台¶

你的研究问题是什么？
│
├── 需要快速、无损、高重复性的代谢指纹  → NMR
│
├── 需要尽可能多地检测代谢物（非靶向发现）→ LC-MS（首选）
│
├── 需要检测SCFA/挥发性有机物/脂肪酸  → GC-MS
│
└── 高通量临床大队列  → NMR（标准化好）或 LC-MS（灵敏度高）

4. 代谢组数据分析流程¶

完整的数据分析流水线：

原始数据（.raw/.mzML/.mzXML）
    │
    ▼
[Step 1] 峰提取/特征检测（Feature Detection）
    │   - 从连续信号中找到离散的"峰"
    │   - 每个峰 = 一个潜在代谢物特征（m/z + 保留时间 RT）
    ▼
[Step 2] 峰对齐（Alignment）
    │   - 校正不同样品间保留时间的漂移
    │   - 确保同一代谢物在所有样品中对应同一行
    ▼
[Step 3] 峰填充/缺失值处理（Gap Filling）
    │   - 补回因噪声被遗漏的峰
    │   - 最小值/KNN/随机森林填充
    ▼
[Step 4] 标准化/归一化（Normalization）
    │   - 去除系统偏差（样品量差异、仪器漂移等）
    │   - 常用方法：总峰面积归一化、中位数归一化、
    │     内标归一化、PQN、LOESS信号校正
    ▼
[Step 5] 数据转换（Transformation）
    │   - Log转换：减少数据偏度
    │   - Pareto scaling：除以标准差的平方根
    │   - Auto scaling：标准化到均值0、方差1
    ▼
[Step 6] 多元统计分析（Multivariate Analysis）
    │   ├── PCA（主成分分析）— 无监督，看整体分布和离群样品
    │   ├── PLS-DA（偏最小二乘判别分析）— 有监督，找组间差异方向
    │   └── OPLS-DA（正交PLS-DA）— 去除组内变异，更聚焦组间差异
    ▼
[Step 7] 差异代谢物筛选
    │   - 标准：VIP > 1（PLS-DA中变量重要性）
    │           + p-value < 0.05（t检验/Mann-Whitney U）
    │           + Fold Change > 1.5 或 < 0.67
    │   - 火山图（Volcano Plot）可视化
    ▼
[Step 8] 代谢物鉴定（Identification）
    │   - Level 1：与标准品比对（RT + MS/MS一致）
    │   - Level 2：与数据库谱图匹配（HMDB/METLIN/MassBank）
    │   - Level 3：仅基于精确质量推测分子式
    ▼
[Step 9] 通路分析（Pathway Analysis）
    │   - 富集分析：差异代谢物是否集中在某条通路
    │   - 拓扑分析：考虑代谢物在通路网络中的位置重要性
    │   - 常用数据库：KEGG、MetaCyc、Reactome
    ▼
[结果解读] 生物学意义 → 实验验证

4.1 关键步骤详解¶

PCA（主成分分析）¶

白话：把几千维的数据压缩到2-3维画在纸上
      如果两组样品自然分开了，说明代谢谱确实有差异

作用：
- 质控（QC样品是否聚在一起？）
- 发现批次效应
- 观察组间趋势

注意：PCA是无监督的，分不开不代表没差异（可能差异在更多维度上）

PLS-DA（偏最小二乘判别分析）¶

白话：跟PCA的区别是"我告诉算法哪个是疾病组、哪个是对照组"
      算法就专门找能区分两组的方向

关键指标：
- R²X：模型对X（代谢物数据）的解释度
- R²Y：模型对Y（分组标签）的解释度
- Q²：交叉验证的预测能力（Q² > 0.5 通常认为模型可靠）
- VIP值：每个变量对分组的贡献度（VIP > 1 认为重要）

验证方法：
- 置换检验（Permutation test, n=200次）
- 如果R²和Q²都显著高于随机模型，模型才可信

5. 常用工具¶

5.1 数据处理工具¶

工具	类型	功能	适用场景
XCMS	R包/在线版	峰提取、对齐、差异分析	LC-MS/GC-MS非靶向数据处理的金标准
MZmine 4	Java桌面软件	峰检测、对齐、可视化、鉴定	开源替代XCMS，GUI友好
MS-DIAL	桌面软件	DIA数据处理、脂质组学	非靶向+脂质组学
MetaboAnalyst 6.0	在线平台	统计分析、通路分析、富集分析	一站式统计+可视化（最推荐入门）
GNPS	在线平台	分子网络、谱图库搜索	未知化合物鉴定、天然产物
SIRIUS	桌面软件	从MS/MS预测分子式和结构	未知代谢物结构推断

5.2 XCMS基本使用流程（R代码示例）¶

# 安装XCMS（Bioconductor包）
# BiocManager::install("xcms")

library(xcms)  # 加载XCMS包

# 1. 读入原始数据（.mzML格式）
raw_data <- readMSData(
  files = list.files("data/", pattern = ".mzML", full.names = TRUE),  # 读取所有mzML文件
  mode = "onDisk"  # 不全部载入内存，节省RAM
)

# 2. 峰提取（CentWave算法）
cwp <- CentWaveParam(
  peakwidth = c(5, 30),  # 峰宽范围（秒）：代谢物峰通常5-30秒
  ppm = 10,              # 质量偏差容许范围（百万分之十）
  snthresh = 5           # 信噪比阈值：信号需 ≥ 5倍噪声
)
xdata <- findChromPeaks(raw_data, param = cwp)  # 执行峰提取

# 3. 峰对齐（OBI-Warp算法）
xdata <- adjustRtime(xdata, param = ObiwarpParam())  # 保留时间校正

# 4. 峰分组（对应不同样品中相同代谢物）
pdp <- PeakDensityParam(
  sampleGroups = sampleData(xdata)$group,  # 样品分组信息
  bw = 5,               # 峰密度估计带宽
  minFraction = 0.5     # 至少50%样品中要检测到这个峰
)
xdata <- groupChromPeaks(xdata, param = pdp)  # 执行分组

# 5. 缺失值填充
xdata <- fillChromPeaks(xdata)  # 回到原始数据中补回缺失峰

# 6. 导出特征矩阵
feature_table <- featureValues(xdata, value = "into")  # 峰面积矩阵
# 行 = 特征（m/z_RT），列 = 样品

5.3 MetaboAnalyst在线分析流程¶

1. 上传数据（CSV格式：行=样品，列=代谢物，第一列=分组标签）
2. 数据过滤 → 缺失值处理 → 归一化 → 转换 → 缩放
3. 统计分析：PCA、PLS-DA、热图、火山图
4. 富集分析：选择物种 → 选择通路库 → 运行
5. 通路分析：同时考虑富集和拓扑重要性
6. 下载报告（PDF + CSV）

网址：https://www.metaboanalyst.ca （免费，无需注册即可使用基本功能）

5.4 GNPS分子网络¶

白话：把所有MS/MS谱图按相似度"连线"，相似的谱图连在一起形成"网络"
      同一族的化合物（如不同的胆汁酸）会聚成一个小团

核心概念：
- Cosine Score（余弦相似度）：两张谱图有多像，>0.7认为相关
- 分子网络图（Molecular Network）：节点=代谢物，边=谱图相似
- 类比：社交网络中，朋友圈相似的人容易被归为同一社群

6. 代谢通路数据库¶

数据库	内容	特点	网址
KEGG	代谢通路图谱、酶、化合物	最广泛使用，手工注释，通路图直观	https://www.kegg.jp
HMDB	人类代谢物百科全书	22万+代谢物条目，含谱图数据、浓度范围、疾病关联	https://hmdb.ca
MetaCyc	跨物种代谢通路	2,800+通路来自3,100+物种，适合微生物代谢研究	https://metacyc.org
METLIN	MS/MS谱图库	96万+化合物谱图，用于代谢物鉴定	https://metlin.scripps.edu
LipidMaps	脂质专用数据库	脂质分类、结构、通路	https://lipidmaps.org
MassBank	开放质谱库	社区贡献谱图，跨平台	https://massbank.eu

KEGG通路分析白话理解¶

KEGG通路图就像一张"代谢地铁图"：
- 车站 = 代谢物（化合物）
- 地铁线路 = 代谢通路
- 换乘站 = 参与多条通路的关键代谢物

你的差异代谢物如果集中在某条"线路"上，说明这条通路被疾病影响了。

常见代谢通路举例：
- 糖酵解/糖异生（Glycolysis/Gluconeogenesis）
- TCA循环（Citrate Cycle）
- 氨基酸代谢（各种氨基酸的合成和降解）
- 脂肪酸代谢（β-氧化等）
- 胆汁酸合成（Bile acid biosynthesis）
- 色氨酸代谢（Tryptophan metabolism）

7. 与T2D肠道菌群项目的关联¶

7.1 三大菌群来源代谢物¶

代谢物类别	代表物	产生菌	与T2D的关系
SCFA（短链脂肪酸）	乙酸（Acetate）、丙酸（Propionate）、丁酸（Butyrate）	Faecalibacterium、Roseburia、Bifidobacterium等	T2D患者SCFA↓ → 肠屏障损伤 → 炎症 → 胰岛素抵抗
胆汁酸（Bile Acids）	次级胆汁酸（DCA、LCA）	Clostridium、Bacteroides	菌群通过BSH酶解偶联初级胆汁酸 → 影响FXR/TGR5受体 → 调控糖脂代谢
TMAO（氧化三甲胺）	TMAO	含cutC基因的菌（如某些Clostridium）	食物中胆碱/肉碱 → 菌群产TMA → 肝脏氧化为TMAO → 促进动脉粥样硬化和胰岛素抵抗

7.2 SCFA详解¶

膳食纤维 → 肠道菌群发酵 → SCFA（乙酸60%、丙酸25%、丁酸15%）

SCFA的保护机制：
1. 丁酸 → 肠上皮细胞的主要能量来源 → 维护肠屏障完整
2. 丙酸 → 肝脏糖异生底物 → 调节血糖
3. 乙酸/丙酸 → 激活GPR41/GPR43受体 → 促进GLP-1分泌 → 改善胰岛素敏感性
4. SCFA → 抑制NF-κB → 减少炎症因子

T2D中：产SCFA的菌（Faecalibacterium prausnitzii等）减少 
       → SCFA产量下降 → 肠屏障受损 → LPS入血 → 慢性低度炎症 → 胰岛素抵抗

7.3 在该项目中如何提及¶

面试时可以这样串联：

"该项目用宏基因组数据发现T2D患者肠道中产丁酸菌（如 Faecalibacterium、Roseburia）显著减少。如果后续结合代谢组学验证，可以用GC-MS靶向检测粪便中SCFA浓度，或者用LC-MS非靶向检测血浆中胆汁酸和TMAO水平，从'菌群组成变化→代谢产物变化→宿主表型变化'的完整链条来验证因果关系。"

8. 面试怎么答（5道高频题）¶

Q1：什么是代谢组学？和其他组学有什么区别？¶

参考答案：代谢组学是研究生物体内所有小分子代谢物（<1.5 kDa）的学科。和基因组（DNA）、转录组（mRNA）、蛋白质组（蛋白质）相比，代谢组处于最下游，是基因表达的最终"功能读出"。它有三个独特优势：(1) 最接近表型，能直接反映生理状态；(2) 有放大效应，微小的基因变化可导致代谢物数十倍变化；(3) 跨物种通用，同一代谢物化学结构相同。

Q2：靶向和非靶向代谢组学的区别？什么时候用哪种？¶

参考答案：靶向像"体检项目单"——提前定好检测哪些代谢物，用三重四极杆的MRM模式做绝对定量，灵敏准确但范围有限。非靶向像"全身CT"——用高分辨质谱做全扫描，能发现未知标志物但只是相对定量。策略上，先非靶向发现候选标志物，再靶向验证浓度变化。

Q3：代谢组学常用的统计方法有哪些？PCA和PLS-DA有什么区别？¶

参考答案：常用PCA、PLS-DA和OPLS-DA三种多元统计方法。PCA是无监督方法，不告诉算法分组信息，用于看数据整体分布、发现离群样品和批次效应。PLS-DA是有监督方法，输入分组标签后专门找最大化组间差异的方向。PLS-DA的模型需要通过置换检验（permutation test）和交叉验证（Q² > 0.5）来确认不是过拟合。筛选差异代谢物时用VIP > 1结合p-value < 0.05和FC > 1.5的组合标准。

Q4：代谢组学数据分析的完整流程是什么？¶

参考答案： (1) 原始数据转换为mzML格式；(2) 用XCMS或MZmine做峰提取（CentWave算法）；(3) 保留时间对齐（OBI-Warp）；(4) 峰分组和缺失值填充；(5) 归一化（总面积/中位数/PQN）和Log转换；(6) 多元统计分析（PCA质控→PLS-DA分组→VIP+p-value筛选差异代谢物）；(7) 代谢物鉴定（精确质量+MS/MS比对HMDB/METLIN）；(8) 通路富集分析（KEGG/MetaCyc）。

Q5：肠道菌群代谢物SCFA与T2D有什么关系？如何用代谢组学检测？¶

参考答案： T2D患者肠道中产丁酸菌（Faecalibacterium、Roseburia）减少，导致SCFA（尤其丁酸）产量下降。丁酸是结肠上皮细胞的主要能源，缺乏导致肠屏障损伤→LPS入血→慢性炎症→胰岛素抵抗。SCFA检测首选GC-MS（因为SCFA是挥发性小分子），粪便样品经酸化后直接进样或用乙醚萃取。也可用GC-FID做快速定量。定量指标包括乙酸、丙酸、丁酸的绝对浓度和比例。

9. 速查表¶

代谢组学核心概念速查¶

术语	英文	白话解释
代谢组	Metabolome	某一时刻所有小分子的集合
Feature	Feature	一个峰（m/z + RT组合），代表一个潜在代谢物
峰提取	Peak picking / Feature detection	从连续信号中找出离散峰
保留时间	Retention Time (RT)	化合物在色谱柱中跑完需要的时间
m/z	Mass-to-charge ratio	质荷比，质谱仪实际测量的物理量
加合离子	Adduct ion	[M+H]⁺、[M+Na]⁺等，同一物质不同带电形式
VIP	Variable Importance in Projection	PLS-DA中变量重要性得分，>1为重要
FC	Fold Change	组间浓度倍数变化
PQN	Probabilistic Quotient Normalization	基于参考样品的归一化方法
QC样品	Quality Control	所有样品等量混合，监控仪器稳定性
Level 1-4鉴定	Identification levels	代谢物鉴定可信度等级（1最高：有标准品）

工具选择速查¶

任务	推荐工具
LC-MS/GC-MS原始数据处理	XCMS（R）、MZmine 4（GUI）
统计分析+通路分析	MetaboAnalyst 6.0
代谢物鉴定（MS/MS）	METLIN、HMDB、GNPS
分子网络/未知化合物	GNPS、SIRIUS
通路可视化	KEGG Mapper、MetPA（MetaboAnalyst内置）
SCFA定量	GC-MS / GC-FID
脂质组学	MS-DIAL、LipidSearch

数据格式速查¶

格式	说明
.raw	Thermo仪器原始数据
.wiff	AB SCIEX仪器原始数据
.mzML	开放格式（推荐），ProteoWizard转换
.mzXML	较老的开放格式
.mgf	MS/MS谱图文本格式，GNPS使用
.csv	MetaboAnalyst等统计工具的输入格式

10. 延伸资源¶

入门推荐¶

MetaboAnalyst教程：https://www.metaboanalyst.ca/MetaboAnalyst/docs/Tutorials.xhtml （官方教学，从上传数据到出图）
XCMS文档：Bioconductor XCMS vignette（R用户必看）
Metabolomics Society: https://metabolomics-society.org （学术会议、标准制定）

经典文献¶

Wishart DS (2007) "The Human Metabolome" - HMDB创建者的奠基论文
Smith CA et al. (2006) "XCMS: Processing Mass Spectrometry Data" - XCMS原始论文
Patti GJ et al. (2012) "Metabolomics: the apogee of the omics trilogy" - Nature Reviews MCB综述

与T2D相关的代谢组学文献¶

Pedersen HK et al. (2016) "Human gut microbes impact host serum metabolome and insulin sensitivity" - Nature
Canfora EE et al. (2015) "Short-chain fatty acids in control of body weight and insulin sensitivity" - Nature Reviews Endocrinology
Tang WHW et al. (2013) "Intestinal microbial metabolism of phosphatidylcholine and cardiovascular risk" - NEJM（TMAO里程碑论文）

视频教程¶

YouTube: "MetaboAnalyst Tutorial" 系列（官方频道）
Bilibili: 搜索"代谢组学数据分析"有中文教程

与蛋白质组学37篇的区别：蛋白质组学研究的是大分子蛋白质（>10 kDa），用串联质谱做肽段碎裂鉴定序列；代谢组学研究的是小分子代谢物（<1.5 kDa），用精确质量和MS/MS谱图比对数据库鉴定。蛋白质组关注"谁在执行功能"，代谢组关注"功能执行后产生了什么结果"。