蛋白质组学基础（Proteomics）¶

一句话说明¶

蛋白质组学就是用质谱技术大规模研究一个细胞/组织/生物体里所有蛋白质的种类、数量和功能——基因组告诉你"有什么菜谱"，蛋白质组告诉你"今天厨房里实际做了哪些菜、每道菜做了多少份"。

1. 什么是蛋白质组学¶

1.1 定义¶

蛋白质组学（Proteomics）是对蛋白质组（proteome）进行大规模研究的学科。蛋白质组指一个细胞、组织或生物体在特定时间和条件下表达的所有蛋白质的集合。

来源：Wikipedia - "Proteomics is the large-scale study of proteins... The proteome is the entire set of proteins produced or modified by an organism or system."

1.2 白话理解¶

组学层次	研究什么	白话比喻
基因组学（Genomics）	所有基因（DNA序列）	一本完整的菜谱书
转录组学（Transcriptomics）	所有mRNA	今天抄出来准备做的菜单
蛋白质组学（Proteomics）	所有蛋白质	今天厨房实际做出来的菜
代谢组学（Metabolomics）	所有小分子代谢物	菜做出来后产生的味道和营养

1.3 为什么不只看基因就够了？¶

基因≠蛋白质：同一个基因可以通过可变剪切产生多种蛋白质
mRNA水平≠蛋白质水平：翻译效率、蛋白质降解速率不同，mRNA和蛋白质丰度相关性通常只有 ~0.4-0.6
翻译后修饰（PTM）：磷酸化、糖基化、泛素化等修饰改变蛋白功能，基因组看不到
蛋白质才是真正的功能执行者：药物靶点绝大多数是蛋白质

2. 质谱原理白话版¶

质谱仪（Mass Spectrometer, MS）是蛋白质组学的核心工具。原理可以总结为三步：

2.1 电离（Ionization）——让分子带电¶

Wikipedia: "Electrospray ionization (ESI) is a technique used in mass spectrometry to produce ions using an electrospray in which a high voltage is applied to a liquid to create an aerosol."

白话：蛋白质本来是溶液里的大分子，需要先把它"喷"成带电的小液滴（像喷雾器），液滴蒸发后蛋白质/肽段就变成了带电粒子（离子）。

常用电离方式： - ESI（电喷雾电离）：最常用，适合液相色谱直接连接（LC-MS），像用喷壶把水喷成细雾 - MALDI（基质辅助激光解吸电离）：用激光照射样品，适合高通量筛查

2.2 分离（Mass Analysis）——按质荷比分开¶

离子进入质量分析器后，根据质荷比（m/z = 质量/电荷）被分开。

白话：想象一排弹珠从坡上滚下来，重的滚得慢、轻的滚得快——质谱仪就是用电场或磁场把不同"重量"的离子分开排队。

常见质量分析器： | 分析器 | 白话 | 特点 | |-------|------|------| | Orbitrap（轨道阱） | 离子绕中心电极转圈，不同质量转的频率不同 | 高分辨率，最主流 | | TOF（飞行时间） | 给所有离子同样的推力，轻的先到达 | 速度快，适合DIA | | 四极杆（Quadrupole） | 用交变电场只让特定m/z的离子通过 | 常做"过滤器"用 |

2.3 检测（Detection）——数有多少离子¶

分开后的离子撞到检测器上，转换成电信号，画出质谱图（横轴m/z，纵轴强度）。

白话：就像超市扫码后在收银台统计——每种商品（m/z）扫了多少次（强度/丰度）。

2.4 串联质谱（Tandem MS, MS/MS）¶

Wikipedia: "Tandem mass spectrometry, also known as MS/MS or MS2, is a technique where two or more stages of analysis using one or more mass analyzers are performed with an additional reaction step."

白话： - MS1（一级质谱）：先称出完整肽段的"体重"（前体离子 precursor ion） - 碎裂：选中某个肽段，用高能气体把它打碎成碎片 - MS2（二级质谱）：再称碎片的"体重"（碎片离子 fragment ion）

通过碎片的模式就能反推这个肽段的氨基酸序列，就像根据拼图碎片还原原图。

3. DDA vs DIA 采集模式¶

3.1 DDA（数据依赖采集，Data-Dependent Acquisition）¶

原理：MS1扫一遍 → 挑出信号最强的 Top N 个肽段（比如前10个）→ 逐个做 MS2 碎裂。

白话：自助餐厅的大厨只看哪个菜被拿得最多（信号最强），就只研究那几个菜的配方。排队靠后的菜（低丰度蛋白）可能根本轮不到被分析。

3.2 DIA（数据非依赖采集，Data-Independent Acquisition）¶

Wikipedia: "In DIA, all ions within a selected m/z range are fragmented and analyzed in a second stage of tandem mass spectrometry... DIA is an alternative to DDA where a fixed number of precursor ions are selected."

原理：把整个m/z范围分成若干"窗口"，每个窗口内的所有离子都碎裂，不做任何挑选。

白话：大厨不挑了，自助餐厅里所有菜都要分析配方。虽然每个窗口里混了好几道菜的碎片，但靠软件事后"解卷积"（反推哪个碎片属于哪道菜）来搞定。

3.3 DDA vs DIA 对比表¶

特征	DDA	DIA
选择性	只选 Top N	全部碎裂
重复性	较差（每次选到的肽段不一样）	好（所有东西都采了）
定量准确性	一般	高
数据复杂度	低（每张谱对应一个肽段）	高（混合谱需要解卷积）
低丰度蛋白	容易漏掉	理论上都能采到
分析软件	MaxQuant, FragPipe	DIA-NN, Spectronaut
发展趋势	经典方法，文献多	未来主流方向
白话	班里只考前10名	全班都要考

4. 蛋白质组学分析流程¶

样品制备（蛋白提取→酶切成肽段）
   ↓
液相色谱分离（LC，按疏水性分开肽段）
   ↓
质谱采集（MS/MS，获取质谱数据）
   ↓
数据库搜索（把谱图匹配到肽段序列）
   ↓
蛋白定量（计算每个蛋白的表达量）
   ↓
差异分析（找出两组间显著变化的蛋白）
   ↓
功能注释（GO/KEGG富集分析）

4.1 样品制备¶

组织/细胞/体液
   ↓ 裂解（SDS、尿素等变性剂）
蛋白提取液
   ↓ 蛋白定量（BCA法）
   ↓ 还原（DTT打开二硫键）
   ↓ 烷基化（IAA封住巯基）
   ↓ 酶切（Trypsin胰蛋白酶，在K/R后切割）
肽段混合物
   ↓ 脱盐（C18柱净化）
上机样品

白话：就像把一整只烤鸡（完整蛋白）切成一块块鸡肉（肽段），因为质谱仪更擅长分析小块。胰蛋白酶（Trypsin）是最常用的"切肉刀"，专门在赖氨酸（K）和精氨酸（R）后面切。

4.2 LC-MS/MS¶

LC（液相色谱）：把几万种肽段按疏水性依次洗出来（就像不同颜色的彩虹糖在水流里分开）
MS/MS：每洗出一批肽段就送进质谱仪做一级+二级质谱

典型参数： - 色谱柱：C18 反相柱，75μm x 25cm - 梯度：60-120分钟 - 流速：300 nL/min（纳升级！）

4.3 数据库搜索¶

把实验获得的 MS/MS 谱图和理论谱图（根据蛋白质数据库生成）进行比对。

实验谱图（来自质谱仪）
    ↓ 比对
理论谱图（根据数据库中每条蛋白的序列，模拟酶切 + 碎裂产生的理论碎片）
    ↓ 打分
PSM（Peptide-Spectrum Match，肽段-谱图匹配）
    ↓ FDR过滤（通常 < 1%）
可信肽段鉴定结果
    ↓ 肽段→蛋白推断
蛋白鉴定列表

常用蛋白质数据库： - UniProt/Swiss-Prot：人工审核的高质量数据库 - UniProt/TrEMBL：自动注释，量大但质量参差 - NCBI nr：非冗余蛋白数据库

4.4 定量分析¶

根据定量方法不同（见第6节），计算每个蛋白在每个样品中的表达量。

4.5 差异分析¶

# 差异蛋白分析的基本思路（伪代码示例）
# 和转录组差异分析类似，但蛋白组通常样本量更小

import pandas as pd               # 数据处理库
from scipy import stats           # 统计检验库

# 读取蛋白定量矩阵（行=蛋白，列=样本）
protein_matrix = pd.read_csv("protein_abundance.csv", index_col=0)

# 分组信息
group1 = ["T2D_1", "T2D_2", "T2D_3"]        # 糖尿病组
group2 = ["Control_1", "Control_2", "Control_3"]  # 对照组

results = []
for protein in protein_matrix.index:          # 遍历每个蛋白
    g1 = protein_matrix.loc[protein, group1]  # 取糖尿病组的值
    g2 = protein_matrix.loc[protein, group2]  # 取对照组的值

    # t检验（蛋白组常用）或 limma（R语言更推荐）
    t_stat, p_value = stats.ttest_ind(g1, g2)

    # 计算 fold change（倍数变化）
    fc = g1.mean() / g2.mean()               # 均值比
    log2fc = np.log2(fc)                      # 取log2方便看方向

    results.append({
        "protein": protein,
        "log2FC": log2fc,
        "p_value": p_value
    })

# FDR校正（Benjamini-Hochberg）
# 筛选标准通常：|log2FC| > 1 且 FDR < 0.05

4.6 功能注释¶

和转录组分析一样的下游分析： - GO富集（Biological Process / Molecular Function / Cellular Component） - KEGG通路富集 - 蛋白互作网络（PPI, 用STRING数据库） - Domain/Motif分析

5. 数据库搜索原理——靶-诱库策略与FDR控制¶

5.1 靶-诱库（Target-Decoy）策略¶

这是蛋白质组学质控的核心思想：

靶库（Target Database）：真实的蛋白序列
    例如：UniProt Human（约20,000条蛋白）

诱饵库（Decoy Database）：把每条蛋白序列反转（reverse）
    例如：MAKTFG... → ...GFTKAMI
    这些"假蛋白"在自然界不存在

合并搜索 → 统计匹配到诱饵库的数量

Wikipedia: "FDR is the expected proportion of discoveries that are false... FDR = FP / (FP + TP)."

5.2 FDR计算¶

白话：诱饵库里的蛋白都是假的，如果搜索结果里有100个匹配到真蛋白，1个匹配到假蛋白，那FDR ≈ 1%（意思是100个结果里大约有1个是假的）。

FDR = 匹配到诱饵库的数量 / 匹配到靶库的数量

具体公式：
FDR = 2 × Decoy_hits / (Target_hits + Decoy_hits)

行业标准：
- PSM（肽段-谱图匹配）级别 FDR < 1%
- 肽段级别 FDR < 1%
- 蛋白级别 FDR < 1%

5.3 白话类比¶

想象你在一堆简历里找合格员工： - 靶库 = 真实的求职者简历 - 诱饵库 = 你故意混入的一批假简历（名字倒着写的） - 如果你的筛选标准选出了100份真简历和2份假简历，说明你的筛选标准的误选率（FDR）约为 2% - 标准太松：假简历混入多 → FDR高；标准太严：漏掉好简历 → 灵敏度低

6. 定量方法对比——LFQ / TMT / SILAC¶

6.1 三种方法概述¶

特征	LFQ（无标记定量）	TMT（串联质量标签）	SILAC（稳定同位素标记）
标记方式	不标记	化学标记（体外）	代谢标记（体内）
定量原理	比较肽段信号强度或谱图计数	比较报告离子强度（MS2/MS3）	比较轻/重同位素肽段对的强度
多重比较	无限制（但需严格归一化）	最多 18-plex（TMT18pro）	通常 2-3 plex
成本	低	中-高（试剂贵）	中（需要同位素培养基）
适用样本	任何（临床/环境/微生物）	任何	仅限细胞培养
准确性	中	高（TMT比LFQ精度更高）	高
缺失值	多（DDA模式下尤其明显）	少（同次上机）	少
代表软件	MaxQuant LFQ, DIA-NN	MaxQuant, Proteome Discoverer	MaxQuant

来源：TMT - "TMT-based proteomics has been shown to afford higher precision than label-free quantification."（Wikipedia - Tandem mass tag）
来源：SILAC - "Stable isotope labeling by amino acids in cell culture (SILAC) is a technique based on mass spectrometry that detects differences in protein abundance among samples using non-radioactive isotopic labeling."（Wikipedia）
来源：LFQ - "Label-free quantification is a method in mass spectrometry that aims to determine the relative amount of proteins... does not use a stable isotope containing compound to chemically bind to and thus label the protein."（Wikipedia）

6.2 白话对比¶

LFQ：不贴标签，直接比两次考试的成绩（简单但不够准，因为两次考试条件可能不同）
TMT：给不同班级的试卷贴不同颜色的标签，混在一起批改（条件一致，更准）
SILAC：让不同班级的学生吃不同食物（轻/重同位素氨基酸），通过体重差异区分来源

6.3 怎么选？¶

临床样本/粪便/环境样本 → LFQ（样本不能做代谢标记）
     ↓ 追求更高精度
     → TMT（成本允许的话）

细胞培养实验 → SILAC（最准，但只能体外培养）

大队列研究（>100样本）→ LFQ + DIA（DIA-NN）

7. 常用工具¶

7.1 MaxQuant¶

官网：https://maxquant.org/
开发者：Jürgen Cox 实验室（Max Planck Institute of Biochemistry）
特点：DDA分析的金标准，内置 Andromeda 搜索引擎
支持：LFQ、SILAC、TMT 定量
输出：proteinGroups.txt（蛋白定量结果）
下游：配套 Perseus 做统计分析
语言：C#，Windows 运行，免费

# MaxQuant 基本工作流程
Raw files（质谱原始数据，.raw格式）
   ↓ 加载到 MaxQuant GUI
配置参数：
   - FASTA数据库（UniProt下载）
   - 酶：Trypsin/P
   - 固定修饰：Carbamidomethyl (C)    # 半胱氨酸烷基化
   - 可变修饰：Oxidation (M), Acetyl (Protein N-term)
   - FDR：1%（PSM和蛋白级别）
   - 定量方式：LFQ / SILAC / TMT
   ↓ 运行
输出目录/combined/txt/ 下的结果文件

7.2 DIA-NN¶

GitHub：https://github.com/vdemichev/DiaNN（已验证可访问）
开发者：Vadim Demichev（Charité – Universitätsmedizin Berlin）
特点：DIA数据分析的速度标杆，深度学习驱动
亮点：library-free模式（不需要提前建谱图库），速度极快
输出：report.tsv（定量结果），可直接导入R/Python分析

# DIA-NN 命令行示例
diann \
    --f sample1.mzML \                    # 输入DIA数据（mzML格式）
    --f sample2.mzML \
    --lib "" \                            # 空字符串 = library-free模式
    --fasta uniprot_human.fasta \         # 蛋白序列数据库
    --threads 8 \                         # 线程数
    --out report.tsv \                    # 输出文件
    --qvalue 0.01 \                       # FDR阈值1%
    --matrices                            # 输出定量矩阵

7.3 FragPipe¶

官网：https://fragpipe.nesvilab.org/
开发者：Nesvizhskii Lab（University of Michigan）
核心：MSFragger 搜索引擎（超快的数据库搜索）
特点：支持 DDA/DIA/开放搜索（Open Search，找未知修饰）
速度：比传统搜索引擎快 10-100 倍

7.4 Perseus¶

开发者：MaxQuant 团队
定位：蛋白质组学下游统计分析平台（GUI操作）
功能：数据过滤、归一化、缺失值填充、t-test、ANOVA、PCA、聚类、火山图、热图
白话：MaxQuant找到了蛋白，Perseus负责告诉你哪些蛋白有意义

7.5 工具选择速查¶

DDA 数据 → MaxQuant 或 FragPipe 搜库 → Perseus 统计分析
DIA 数据 → DIA-NN 搜库+定量 → R/Python 统计分析
开放搜索（找PTM）→ FragPipe (MSFragger)
大规模临床队列 → DIA + DIA-NN（速度快、重复性好）

8. 与T2D项目的关联——宏蛋白质组学¶

8.1 什么是宏蛋白质组学（Metaproteomics）¶

Wikipedia: "Metaproteomics is an umbrella term for experimental approaches to study all proteins in microbial communities and microbiomes from environmental sources."

白话：宏基因组告诉你肠道里有哪些细菌、它们有什么基因；宏蛋白质组学告诉你这些细菌实际表达了哪些蛋白——也就是它们真正在干什么活。

8.2 与宏基因组示例项目的衔接¶

研究项目（宏基因组）：
   粪便样本 → 16S/宏基因组测序 → 找到 T2D 相关菌群差异

如果加上宏蛋白质组学：
   同一批粪便样本 → 蛋白提取 → LC-MS/MS → 数据库搜索（用宏基因组组装的蛋白数据库）
   → 找到 T2D 患者肠道菌群实际表达的差异蛋白
   → 发现功能层面的变化（不只是"有没有这个菌"，而是"这个菌在做什么"）

8.3 宏蛋白质组学的特殊挑战¶

挑战	说明
数据库构建	不能用单一物种的UniProt，需要用宏基因组组装的蛋白数据库或 IGC（人类肠道微生物基因集）
宿主蛋白干扰	粪便里大量人源蛋白（脱落的肠上皮细胞），需要在分析中区分
物种归属	一个肽段可能匹配多个菌种的同源蛋白
常用工具	MetaProteomeAnalyzer (MPA), MetaLab, Unipept

8.4 面试怎么说¶

"我的毕业课题是2型糖尿病肠道菌群的宏基因组分析。宏基因组告诉我们菌群的组成和功能潜力，但如果想知道这些菌群在T2D患者体内实际执行了哪些功能，就需要宏蛋白质组学。这是一个从DNA层面到蛋白功能层面的自然延伸，也是多组学整合分析的重要方向。"

9. 面试高频问题与参考答案¶

Q1: 请简述质谱（MS）的基本原理¶

参考答案：质谱分析有三个核心步骤：(1) 电离——通过ESI（电喷雾）或MALDI（激光）将分子变成带电离子；(2) 分离——在质量分析器（如Orbitrap、TOF）中按质荷比（m/z）将不同离子分开；(3) 检测——检测器记录每种m/z离子的数量，生成质谱图。在蛋白质组学中，我们通常用串联质谱（MS/MS），先在MS1记录完整肽段的m/z，再碎裂后在MS2记录碎片的m/z，从而推断肽段的氨基酸序列。

Q2: DDA和DIA有什么区别？各自的优缺点？¶

参考答案： DDA（数据依赖采集）在每个MS1扫描后，选择信号最强的Top N个前体离子进行MS2碎裂，优点是谱图简单、匹配容易，缺点是低丰度蛋白容易漏检，且重复性差。DIA（数据非依赖采集）将m/z范围分成若干窗口，对窗口内所有离子碎裂，优点是覆盖全面、重复性好、定量更准，缺点是混合谱图需要复杂的计算解卷积。目前DIA是蛋白质组学的发展趋势，DIA-NN等工具的出现大大降低了分析门槛。

Q3: 蛋白质组学中如何控制假阳性（FDR）？¶

参考答案：蛋白质组学使用靶-诱库（Target-Decoy）策略控制FDR。具体做法是：将真实蛋白序列库（靶库）和反转序列库（诱饵库）合并搜索。由于诱饵库中的序列是人造的，任何匹配到诱饵库的结果都是假阳性。通过统计诱饵库的命中数，可以估算FDR。行业标准是PSM、肽段和蛋白三个层次都控制FDR < 1%。公式为：FDR ≈ 2 × Decoy_hits / (Target_hits + Decoy_hits)。

Q4: LFQ、TMT、SILAC三种定量方法怎么选？¶

参考答案：三种方法各有适用场景：LFQ（无标记定量）不需要额外标记试剂，成本低，适用于任何样本类型（包括临床样本、环境样本），但定量精度相对较低，缺失值多。TMT（串联质量标签）通过化学标记实现多重比较（最多18个样本同时比较），精度高于LFQ，但试剂成本高。SILAC（稳定同位素标记）通过代谢标记实现最准确的定量，但只适用于细胞培养体系。临床/微生物样本首选LFQ或TMT，细胞实验首选SILAC，大队列研究推荐DIA+LFQ。

Q5: 如果让你设计一个T2D肠道菌群的宏蛋白质组学实验，你会怎么做？¶

参考答案： (1) 样品收集：收集T2D患者和健康对照的粪便样本，同一批样本同时做宏基因组和宏蛋白质组学。(2) 数据库构建：用宏基因组组装结果预测蛋白序列，构建样本特异的蛋白数据库，同时加入人源UniProt数据库用于区分宿主蛋白。(3) 质谱分析：蛋白提取 → 胰蛋白酶酶切 → LC-MS/MS（DIA模式）。(4) 数据分析：DIA-NN或MetaLab搜库定量 → 差异蛋白分析 → 功能注释（GO/KEGG）→ 整合宏基因组结果，看哪些菌群的功能蛋白在T2D中显著变化。(5) 意义：可以揭示菌群在T2D中的实际功能活动，而非仅仅是基因层面的功能潜力。

10. 速查表¶

核心概念速查¶

术语	英文	白话解释
蛋白质组	Proteome	一个细胞里所有蛋白的集合
质荷比	m/z	离子的"质量÷电荷"，质谱的X轴
前体离子	Precursor ion	MS1里检测到的完整肽段离子
碎片离子	Fragment ion	MS2里肽段被打碎后的碎片
PSM	Peptide-Spectrum Match	一张谱图匹配到一条肽段
FDR	False Discovery Rate	结果中假阳性的比例
靶-诱库	Target-Decoy	用反转序列估算假阳性率
LFQ	Label-Free Quantification	不贴标签，直接比信号强度
TMT	Tandem Mass Tag	化学标签多重定量
SILAC	Stable Isotope Labeling	同位素代谢标记定量
DDA	Data-Dependent Acquisition	只选最强的碎裂
DIA	Data-Independent Acquisition	全部碎裂
PTM	Post-Translational Modification	翻译后修饰（磷酸化等）

工具速查¶

工具	用途	输入	输出
MaxQuant	DDA搜库+定量	.raw + .fasta	proteinGroups.txt
DIA-NN	DIA搜库+定量	.mzML + .fasta	report.tsv
FragPipe	DDA/DIA/开放搜索	.mzML + .fasta	多种格式
Perseus	统计分析+可视化	MaxQuant输出	火山图/热图/PCA
Spectronaut	商业DIA分析	.raw + 谱图库	定量矩阵
MetaLab	宏蛋白质组学	.raw + 宏基因组数据库	物种+功能注释
STRING	蛋白互作网络	蛋白列表	PPI网络图

分析流程速查¶

原始数据 (.raw/.wiff/.mzML)
    ↓
格式转换 → msconvert（ProteoWizard）
    ↓
DDA路线：MaxQuant/FragPipe → Perseus
DIA路线：DIA-NN → R/Python
    ↓
差异蛋白 → GO/KEGG富集 → PPI网络 → 生物学解释

11. 延伸资源¶

和本项目其他知识库的关联¶

知识库编号	内容	关联点
KB2-13	AlphaFold蛋白质结构预测	蛋白组鉴定后可预测结构
KB2-14	宏基因组binning与MAGs	MAGs预测蛋白→宏蛋白质组数据库
KB2-15	QIIME2微生物组分析	菌群组成+蛋白功能=多组学
KB2-18	多组学整合分析	宏基因组+宏蛋白质组整合
KB1（知识库1）	质控、统计基础	差异分析的统计方法通用

本文基于 Wikipedia（Proteomics, Tandem mass spectrometry, Data-independent acquisition, Tandem mass tag, SILAC, Label-free quantification, Electrospray ionization, Metaproteomics, False discovery rate）等公开资料编写，所有引用已在文中标注来源。工具版本和链接经联网验证（2026年5月）。

资源	链接	说明
MaxQuant官网	https://maxquant.org/	下载软件+教程
DIA-NN GitHub	https://github.com/vdemichev/DiaNN	源码+文档+教程
FragPipe官网	https://fragpipe.nesvilab.org/	MSFragger生态
Perseus官网	https://maxquant.net/perseus/	下游统计分析
UniProt	https://www.uniprot.org/	蛋白序列数据库
ProteomeXchange	http://www.proteomexchange.org/	蛋白质组公共数据仓库
PRIDE Archive	https://www.ebi.ac.uk/pride/	蛋白质组数据提交与下载