跳转至

蛋白质组学基础(Proteomics)


一句话说明

蛋白质组学就是用质谱技术大规模研究一个细胞/组织/生物体里所有蛋白质的种类、数量和功能——基因组告诉你"有什么菜谱",蛋白质组告诉你"今天厨房里实际做了哪些菜、每道菜做了多少份"。


1. 什么是蛋白质组学

1.1 定义

蛋白质组学(Proteomics)是对蛋白质组(proteome)进行大规模研究的学科。蛋白质组指一个细胞、组织或生物体在特定时间和条件下表达的所有蛋白质的集合。

来源:Wikipedia - "Proteomics is the large-scale study of proteins... The proteome is the entire set of proteins produced or modified by an organism or system."

1.2 白话理解

组学层次研究什么白话比喻
基因组学(Genomics)所有基因(DNA序列)一本完整的菜谱书
转录组学(Transcriptomics)所有mRNA今天抄出来准备做的菜单
蛋白质组学(Proteomics)所有蛋白质今天厨房实际做出来的菜
代谢组学(Metabolomics)所有小分子代谢物菜做出来后产生的味道和营养

1.3 为什么不只看基因就够了?

  • 基因≠蛋白质:同一个基因可以通过可变剪切产生多种蛋白质
  • mRNA水平≠蛋白质水平:翻译效率、蛋白质降解速率不同,mRNA和蛋白质丰度相关性通常只有 ~0.4-0.6
  • 翻译后修饰(PTM):磷酸化、糖基化、泛素化等修饰改变蛋白功能,基因组看不到
  • 蛋白质才是真正的功能执行者:药物靶点绝大多数是蛋白质

2. 质谱原理白话版

质谱仪(Mass Spectrometer, MS)是蛋白质组学的核心工具。原理可以总结为三步:

2.1 电离(Ionization)——让分子带电

Wikipedia: "Electrospray ionization (ESI) is a technique used in mass spectrometry to produce ions using an electrospray in which a high voltage is applied to a liquid to create an aerosol."

白话:蛋白质本来是溶液里的大分子,需要先把它"喷"成带电的小液滴(像喷雾器),液滴蒸发后蛋白质/肽段就变成了带电粒子(离子)。

常用电离方式: - ESI(电喷雾电离):最常用,适合液相色谱直接连接(LC-MS),像用喷壶把水喷成细雾 - MALDI(基质辅助激光解吸电离):用激光照射样品,适合高通量筛查

2.2 分离(Mass Analysis)——按质荷比分开

离子进入质量分析器后,根据质荷比(m/z = 质量/电荷)被分开。

白话:想象一排弹珠从坡上滚下来,重的滚得慢、轻的滚得快——质谱仪就是用电场或磁场把不同"重量"的离子分开排队。

常见质量分析器: | 分析器 | 白话 | 特点 | |-------|------|------| | Orbitrap(轨道阱) | 离子绕中心电极转圈,不同质量转的频率不同 | 高分辨率,最主流 | | TOF(飞行时间) | 给所有离子同样的推力,轻的先到达 | 速度快,适合DIA | | 四极杆(Quadrupole) | 用交变电场只让特定m/z的离子通过 | 常做"过滤器"用 |

2.3 检测(Detection)——数有多少离子

分开后的离子撞到检测器上,转换成电信号,画出质谱图(横轴m/z,纵轴强度)。

白话:就像超市扫码后在收银台统计——每种商品(m/z)扫了多少次(强度/丰度)。

2.4 串联质谱(Tandem MS, MS/MS)

Wikipedia: "Tandem mass spectrometry, also known as MS/MS or MS2, is a technique where two or more stages of analysis using one or more mass analyzers are performed with an additional reaction step."

白话: - MS1(一级质谱):先称出完整肽段的"体重"(前体离子 precursor ion) - 碎裂:选中某个肽段,用高能气体把它打碎成碎片 - MS2(二级质谱):再称碎片的"体重"(碎片离子 fragment ion)

通过碎片的模式就能反推这个肽段的氨基酸序列,就像根据拼图碎片还原原图。


3. DDA vs DIA 采集模式

3.1 DDA(数据依赖采集,Data-Dependent Acquisition)

原理:MS1扫一遍 → 挑出信号最强的 Top N 个肽段(比如前10个)→ 逐个做 MS2 碎裂。

白话:自助餐厅的大厨只看哪个菜被拿得最多(信号最强),就只研究那几个菜的配方。排队靠后的菜(低丰度蛋白)可能根本轮不到被分析。

3.2 DIA(数据非依赖采集,Data-Independent Acquisition)

Wikipedia: "In DIA, all ions within a selected m/z range are fragmented and analyzed in a second stage of tandem mass spectrometry... DIA is an alternative to DDA where a fixed number of precursor ions are selected."

原理:把整个m/z范围分成若干"窗口",每个窗口内的所有离子都碎裂,不做任何挑选。

白话:大厨不挑了,自助餐厅里所有菜都要分析配方。虽然每个窗口里混了好几道菜的碎片,但靠软件事后"解卷积"(反推哪个碎片属于哪道菜)来搞定。

3.3 DDA vs DIA 对比表

特征DDADIA
选择性只选 Top N全部碎裂
重复性较差(每次选到的肽段不一样)好(所有东西都采了)
定量准确性一般
数据复杂度低(每张谱对应一个肽段)高(混合谱需要解卷积)
低丰度蛋白容易漏掉理论上都能采到
分析软件MaxQuant, FragPipeDIA-NN, Spectronaut
发展趋势经典方法,文献多未来主流方向
白话班里只考前10名全班都要考

4. 蛋白质组学分析流程

样品制备(蛋白提取→酶切成肽段)
液相色谱分离(LC,按疏水性分开肽段)
质谱采集(MS/MS,获取质谱数据)
数据库搜索(把谱图匹配到肽段序列)
蛋白定量(计算每个蛋白的表达量)
差异分析(找出两组间显著变化的蛋白)
功能注释(GO/KEGG富集分析)

4.1 样品制备

组织/细胞/体液
   ↓ 裂解(SDS、尿素等变性剂)
蛋白提取液
   ↓ 蛋白定量(BCA法)
   ↓ 还原(DTT打开二硫键)
   ↓ 烷基化(IAA封住巯基)
   ↓ 酶切(Trypsin胰蛋白酶,在K/R后切割)
肽段混合物
   ↓ 脱盐(C18柱净化)
上机样品

白话:就像把一整只烤鸡(完整蛋白)切成一块块鸡肉(肽段),因为质谱仪更擅长分析小块。胰蛋白酶(Trypsin)是最常用的"切肉刀",专门在赖氨酸(K)和精氨酸(R)后面切。

4.2 LC-MS/MS

  • LC(液相色谱):把几万种肽段按疏水性依次洗出来(就像不同颜色的彩虹糖在水流里分开)
  • MS/MS:每洗出一批肽段就送进质谱仪做一级+二级质谱

典型参数: - 色谱柱:C18 反相柱,75μm x 25cm - 梯度:60-120分钟 - 流速:300 nL/min(纳升级!)

4.3 数据库搜索

把实验获得的 MS/MS 谱图和理论谱图(根据蛋白质数据库生成)进行比对。

实验谱图(来自质谱仪)
    ↓ 比对
理论谱图(根据数据库中每条蛋白的序列,模拟酶切 + 碎裂产生的理论碎片)
    ↓ 打分
PSM(Peptide-Spectrum Match,肽段-谱图匹配)
    ↓ FDR过滤(通常 < 1%)
可信肽段鉴定结果
    ↓ 肽段→蛋白推断
蛋白鉴定列表

常用蛋白质数据库: - UniProt/Swiss-Prot:人工审核的高质量数据库 - UniProt/TrEMBL:自动注释,量大但质量参差 - NCBI nr:非冗余蛋白数据库

4.4 定量分析

根据定量方法不同(见第6节),计算每个蛋白在每个样品中的表达量。

4.5 差异分析

# 差异蛋白分析的基本思路(伪代码示例)
# 和转录组差异分析类似,但蛋白组通常样本量更小

import pandas as pd               # 数据处理库
from scipy import stats           # 统计检验库

# 读取蛋白定量矩阵(行=蛋白,列=样本)
protein_matrix = pd.read_csv("protein_abundance.csv", index_col=0)

# 分组信息
group1 = ["T2D_1", "T2D_2", "T2D_3"]        # 糖尿病组
group2 = ["Control_1", "Control_2", "Control_3"]  # 对照组

results = []
for protein in protein_matrix.index:          # 遍历每个蛋白
    g1 = protein_matrix.loc[protein, group1]  # 取糖尿病组的值
    g2 = protein_matrix.loc[protein, group2]  # 取对照组的值

    # t检验(蛋白组常用)或 limma(R语言更推荐)
    t_stat, p_value = stats.ttest_ind(g1, g2)

    # 计算 fold change(倍数变化)
    fc = g1.mean() / g2.mean()               # 均值比
    log2fc = np.log2(fc)                      # 取log2方便看方向

    results.append({
        "protein": protein,
        "log2FC": log2fc,
        "p_value": p_value
    })

# FDR校正(Benjamini-Hochberg)
# 筛选标准通常:|log2FC| > 1 且 FDR < 0.05

4.6 功能注释

和转录组分析一样的下游分析: - GO富集(Biological Process / Molecular Function / Cellular Component) - KEGG通路富集 - 蛋白互作网络(PPI, 用STRING数据库) - Domain/Motif分析


5. 数据库搜索原理——靶-诱库策略与FDR控制

5.1 靶-诱库(Target-Decoy)策略

这是蛋白质组学质控的核心思想

靶库(Target Database):真实的蛋白序列
    例如:UniProt Human(约20,000条蛋白)

诱饵库(Decoy Database):把每条蛋白序列反转(reverse)
    例如:MAKTFG... → ...GFTKAMI
    这些"假蛋白"在自然界不存在

合并搜索 → 统计匹配到诱饵库的数量

Wikipedia: "FDR is the expected proportion of discoveries that are false... FDR = FP / (FP + TP)."

5.2 FDR计算

白话:诱饵库里的蛋白都是假的,如果搜索结果里有100个匹配到真蛋白,1个匹配到假蛋白,那FDR ≈ 1%(意思是100个结果里大约有1个是假的)。

FDR = 匹配到诱饵库的数量 / 匹配到靶库的数量

具体公式:
FDR = 2 × Decoy_hits / (Target_hits + Decoy_hits)

行业标准:
- PSM(肽段-谱图匹配)级别 FDR < 1%
- 肽段级别 FDR < 1%
- 蛋白级别 FDR < 1%

5.3 白话类比

想象你在一堆简历里找合格员工: - 靶库 = 真实的求职者简历 - 诱饵库 = 你故意混入的一批假简历(名字倒着写的) - 如果你的筛选标准选出了100份真简历和2份假简历,说明你的筛选标准的误选率(FDR)约为 2% - 标准太松:假简历混入多 → FDR高;标准太严:漏掉好简历 → 灵敏度低


6. 定量方法对比——LFQ / TMT / SILAC

6.1 三种方法概述

特征LFQ(无标记定量)TMT(串联质量标签)SILAC(稳定同位素标记)
标记方式不标记化学标记(体外)代谢标记(体内)
定量原理比较肽段信号强度或谱图计数比较报告离子强度(MS2/MS3)比较轻/重同位素肽段对的强度
多重比较无限制(但需严格归一化)最多 18-plex(TMT18pro)通常 2-3 plex
成本中-高(试剂贵)中(需要同位素培养基)
适用样本任何(临床/环境/微生物)任何仅限细胞培养
准确性高(TMT比LFQ精度更高)
缺失值多(DDA模式下尤其明显)少(同次上机)
代表软件MaxQuant LFQ, DIA-NNMaxQuant, Proteome DiscovererMaxQuant

来源:TMT - "TMT-based proteomics has been shown to afford higher precision than label-free quantification."(Wikipedia - Tandem mass tag)

来源:SILAC - "Stable isotope labeling by amino acids in cell culture (SILAC) is a technique based on mass spectrometry that detects differences in protein abundance among samples using non-radioactive isotopic labeling."(Wikipedia)

来源:LFQ - "Label-free quantification is a method in mass spectrometry that aims to determine the relative amount of proteins... does not use a stable isotope containing compound to chemically bind to and thus label the protein."(Wikipedia)

6.2 白话对比

  • LFQ:不贴标签,直接比两次考试的成绩(简单但不够准,因为两次考试条件可能不同)
  • TMT:给不同班级的试卷贴不同颜色的标签,混在一起批改(条件一致,更准)
  • SILAC:让不同班级的学生吃不同食物(轻/重同位素氨基酸),通过体重差异区分来源

6.3 怎么选?

临床样本/粪便/环境样本 → LFQ(样本不能做代谢标记)
     ↓ 追求更高精度
     → TMT(成本允许的话)

细胞培养实验 → SILAC(最准,但只能体外培养)

大队列研究(>100样本)→ LFQ + DIA(DIA-NN)

7. 常用工具

7.1 MaxQuant

  • 官网:https://maxquant.org/
  • 开发者:Jürgen Cox 实验室(Max Planck Institute of Biochemistry)
  • 特点:DDA分析的金标准,内置 Andromeda 搜索引擎
  • 支持:LFQ、SILAC、TMT 定量
  • 输出:proteinGroups.txt(蛋白定量结果)
  • 下游:配套 Perseus 做统计分析
  • 语言:C#,Windows 运行,免费
# MaxQuant 基本工作流程
Raw files(质谱原始数据,.raw格式)
   ↓ 加载到 MaxQuant GUI
配置参数:
   - FASTA数据库(UniProt下载)
   - 酶:Trypsin/P
   - 固定修饰:Carbamidomethyl (C)    # 半胱氨酸烷基化
   - 可变修饰:Oxidation (M), Acetyl (Protein N-term)
   - FDR:1%(PSM和蛋白级别)
   - 定量方式:LFQ / SILAC / TMT
   ↓ 运行
输出目录/combined/txt/ 下的结果文件

7.2 DIA-NN

  • GitHub:https://github.com/vdemichev/DiaNN(已验证可访问)
  • 开发者:Vadim Demichev(Charité – Universitätsmedizin Berlin)
  • 特点:DIA数据分析的速度标杆,深度学习驱动
  • 亮点:library-free模式(不需要提前建谱图库),速度极快
  • 输出:report.tsv(定量结果),可直接导入R/Python分析
# DIA-NN 命令行示例
diann \
    --f sample1.mzML \                    # 输入DIA数据(mzML格式)
    --f sample2.mzML \
    --lib "" \                            # 空字符串 = library-free模式
    --fasta uniprot_human.fasta \         # 蛋白序列数据库
    --threads 8 \                         # 线程数
    --out report.tsv \                    # 输出文件
    --qvalue 0.01 \                       # FDR阈值1%
    --matrices                            # 输出定量矩阵

7.3 FragPipe

  • 官网:https://fragpipe.nesvilab.org/
  • 开发者:Nesvizhskii Lab(University of Michigan)
  • 核心:MSFragger 搜索引擎(超快的数据库搜索)
  • 特点:支持 DDA/DIA/开放搜索(Open Search,找未知修饰)
  • 速度:比传统搜索引擎快 10-100 倍

7.4 Perseus

  • 开发者:MaxQuant 团队
  • 定位:蛋白质组学下游统计分析平台(GUI操作)
  • 功能:数据过滤、归一化、缺失值填充、t-test、ANOVA、PCA、聚类、火山图、热图
  • 白话:MaxQuant找到了蛋白,Perseus负责告诉你哪些蛋白有意义

7.5 工具选择速查

DDA 数据 → MaxQuant 或 FragPipe 搜库 → Perseus 统计分析
DIA 数据 → DIA-NN 搜库+定量 → R/Python 统计分析
开放搜索(找PTM)→ FragPipe (MSFragger)
大规模临床队列 → DIA + DIA-NN(速度快、重复性好)

8. 与T2D项目的关联——宏蛋白质组学

8.1 什么是宏蛋白质组学(Metaproteomics)

Wikipedia: "Metaproteomics is an umbrella term for experimental approaches to study all proteins in microbial communities and microbiomes from environmental sources."

白话:宏基因组告诉你肠道里有哪些细菌、它们有什么基因;宏蛋白质组学告诉你这些细菌实际表达了哪些蛋白——也就是它们真正在干什么活

8.2 与宏基因组示例项目的衔接

研究项目(宏基因组):
   粪便样本 → 16S/宏基因组测序 → 找到 T2D 相关菌群差异

如果加上宏蛋白质组学:
   同一批粪便样本 → 蛋白提取 → LC-MS/MS → 数据库搜索(用宏基因组组装的蛋白数据库)
   → 找到 T2D 患者肠道菌群实际表达的差异蛋白
   → 发现功能层面的变化(不只是"有没有这个菌",而是"这个菌在做什么")

8.3 宏蛋白质组学的特殊挑战

挑战说明
数据库构建不能用单一物种的UniProt,需要用宏基因组组装的蛋白数据库或 IGC(人类肠道微生物基因集)
宿主蛋白干扰粪便里大量人源蛋白(脱落的肠上皮细胞),需要在分析中区分
物种归属一个肽段可能匹配多个菌种的同源蛋白
常用工具MetaProteomeAnalyzer (MPA), MetaLab, Unipept

8.4 面试怎么说

"我的毕业课题是2型糖尿病肠道菌群的宏基因组分析。宏基因组告诉我们菌群的组成和功能潜力,但如果想知道这些菌群在T2D患者体内实际执行了哪些功能,就需要宏蛋白质组学。这是一个从DNA层面到蛋白功能层面的自然延伸,也是多组学整合分析的重要方向。"


9. 面试高频问题与参考答案

Q1: 请简述质谱(MS)的基本原理

参考答案: 质谱分析有三个核心步骤:(1) 电离——通过ESI(电喷雾)或MALDI(激光)将分子变成带电离子;(2) 分离——在质量分析器(如Orbitrap、TOF)中按质荷比(m/z)将不同离子分开;(3) 检测——检测器记录每种m/z离子的数量,生成质谱图。在蛋白质组学中,我们通常用串联质谱(MS/MS),先在MS1记录完整肽段的m/z,再碎裂后在MS2记录碎片的m/z,从而推断肽段的氨基酸序列。

Q2: DDA和DIA有什么区别?各自的优缺点?

参考答案: DDA(数据依赖采集)在每个MS1扫描后,选择信号最强的Top N个前体离子进行MS2碎裂,优点是谱图简单、匹配容易,缺点是低丰度蛋白容易漏检,且重复性差。DIA(数据非依赖采集)将m/z范围分成若干窗口,对窗口内所有离子碎裂,优点是覆盖全面、重复性好、定量更准,缺点是混合谱图需要复杂的计算解卷积。目前DIA是蛋白质组学的发展趋势,DIA-NN等工具的出现大大降低了分析门槛。

Q3: 蛋白质组学中如何控制假阳性(FDR)?

参考答案: 蛋白质组学使用靶-诱库(Target-Decoy)策略控制FDR。具体做法是:将真实蛋白序列库(靶库)和反转序列库(诱饵库)合并搜索。由于诱饵库中的序列是人造的,任何匹配到诱饵库的结果都是假阳性。通过统计诱饵库的命中数,可以估算FDR。行业标准是PSM、肽段和蛋白三个层次都控制FDR < 1%。公式为:FDR ≈ 2 × Decoy_hits / (Target_hits + Decoy_hits)。

Q4: LFQ、TMT、SILAC三种定量方法怎么选?

参考答案: 三种方法各有适用场景:LFQ(无标记定量)不需要额外标记试剂,成本低,适用于任何样本类型(包括临床样本、环境样本),但定量精度相对较低,缺失值多。TMT(串联质量标签)通过化学标记实现多重比较(最多18个样本同时比较),精度高于LFQ,但试剂成本高。SILAC(稳定同位素标记)通过代谢标记实现最准确的定量,但只适用于细胞培养体系。临床/微生物样本首选LFQ或TMT,细胞实验首选SILAC,大队列研究推荐DIA+LFQ。

Q5: 如果让你设计一个T2D肠道菌群的宏蛋白质组学实验,你会怎么做?

参考答案: (1) 样品收集:收集T2D患者和健康对照的粪便样本,同一批样本同时做宏基因组和宏蛋白质组学。(2) 数据库构建:用宏基因组组装结果预测蛋白序列,构建样本特异的蛋白数据库,同时加入人源UniProt数据库用于区分宿主蛋白。(3) 质谱分析:蛋白提取 → 胰蛋白酶酶切 → LC-MS/MS(DIA模式)。(4) 数据分析:DIA-NN或MetaLab搜库定量 → 差异蛋白分析 → 功能注释(GO/KEGG)→ 整合宏基因组结果,看哪些菌群的功能蛋白在T2D中显著变化。(5) 意义:可以揭示菌群在T2D中的实际功能活动,而非仅仅是基因层面的功能潜力。


10. 速查表

核心概念速查

术语英文白话解释
蛋白质组Proteome一个细胞里所有蛋白的集合
质荷比m/z离子的"质量÷电荷",质谱的X轴
前体离子Precursor ionMS1里检测到的完整肽段离子
碎片离子Fragment ionMS2里肽段被打碎后的碎片
PSMPeptide-Spectrum Match一张谱图匹配到一条肽段
FDRFalse Discovery Rate结果中假阳性的比例
靶-诱库Target-Decoy用反转序列估算假阳性率
LFQLabel-Free Quantification不贴标签,直接比信号强度
TMTTandem Mass Tag化学标签多重定量
SILACStable Isotope Labeling同位素代谢标记定量
DDAData-Dependent Acquisition只选最强的碎裂
DIAData-Independent Acquisition全部碎裂
PTMPost-Translational Modification翻译后修饰(磷酸化等)

工具速查

工具用途输入输出
MaxQuantDDA搜库+定量.raw + .fastaproteinGroups.txt
DIA-NNDIA搜库+定量.mzML + .fastareport.tsv
FragPipeDDA/DIA/开放搜索.mzML + .fasta多种格式
Perseus统计分析+可视化MaxQuant输出火山图/热图/PCA
Spectronaut商业DIA分析.raw + 谱图库定量矩阵
MetaLab宏蛋白质组学.raw + 宏基因组数据库物种+功能注释
STRING蛋白互作网络蛋白列表PPI网络图

分析流程速查

原始数据 (.raw/.wiff/.mzML)
格式转换 → msconvert(ProteoWizard)
DDA路线:MaxQuant/FragPipe → Perseus
DIA路线:DIA-NN → R/Python
差异蛋白 → GO/KEGG富集 → PPI网络 → 生物学解释

11. 延伸资源

推荐阅读

资源链接说明
MaxQuant官网https://maxquant.org/下载软件+教程
DIA-NN GitHubhttps://github.com/vdemichev/DiaNN源码+文档+教程
FragPipe官网https://fragpipe.nesvilab.org/MSFragger生态
Perseus官网https://maxquant.net/perseus/下游统计分析
UniProthttps://www.uniprot.org/蛋白序列数据库
ProteomeXchangehttp://www.proteomexchange.org/蛋白质组公共数据仓库
PRIDE Archivehttps://www.ebi.ac.uk/pride/蛋白质组数据提交与下载

推荐课程与综述

  • Nature Methods Primer: "Proteomics"(2023)——蛋白质组学全景综述
  • MaxQuant Summer School:每年暑期举办的免费在线课程
  • Bioinformatics.ca: Proteomics workshop 资料(免费)

和本项目其他知识库的关联

知识库编号内容关联点
KB2-13AlphaFold蛋白质结构预测蛋白组鉴定后可预测结构
KB2-14宏基因组binning与MAGsMAGs预测蛋白→宏蛋白质组数据库
KB2-15QIIME2微生物组分析菌群组成+蛋白功能=多组学
KB2-18多组学整合分析宏基因组+宏蛋白质组整合
KB1(知识库1)质控、统计基础差异分析的统计方法通用

本文基于 Wikipedia(Proteomics, Tandem mass spectrometry, Data-independent acquisition, Tandem mass tag, SILAC, Label-free quantification, Electrospray ionization, Metaproteomics, False discovery rate)等公开资料编写,所有引用已在文中标注来源。工具版本和链接经联网验证(2026年5月)。