磷酸化蛋白组学分析¶

一句话说明¶

磷酸化蛋白组学专门研究蛋白质上磷酸基团（-PO4）的添加和去除——磷酸化是细胞信号传导的"开关"，就像灯的开关控制灯亮灭一样，磷酸化控制蛋白质的活性状态。

核心知识点¶

要点1：磷酸化基础¶

磷酸化位点：主要发生在丝氨酸（Ser/S，占~86%）、苏氨酸（Thr/T，~12%）、酪氨酸（Tyr/Y，~2%）
激酶（Kinase）：负责"加磷酸"的酶，人类基因组有~500种
磷酸酶（Phosphatase）：负责"去磷酸"的酶
生物学意义：调控信号通路、蛋白活性、蛋白-蛋白相互作用、蛋白定位

要点2：磷酸化肽段富集¶

为什么要富集：磷酸化肽段在总肽段中占比极低（<2%），不富集几乎检测不到
TiO2富集：最常用，二氧化钛亲和吸附磷酸基团
IMAC富集：固定化金属离子亲和色谱（Fe³⁺/Ti⁴⁺），与磷酸基团配位结合
ERLIC色谱：静电排斥亲水色谱，同时基于电荷和亲水性分离
多种方法组合：TiO2 + IMAC互补可提高磷酸化位点覆盖率

要点3：磷酸化位点定位¶

位点定位（Site Localization）：确定磷酸基团在肽段的哪个残基上
问题：如果肽段有多个Ser/Thr/Tyr，磷酸基团可能在任何一个上
评分方法：
ptmRS（MaxQuant内置）
Ascore
PhosphoRS
可信标准：定位概率 > 0.75 视为高置信度位点（Class I）

要点4：磷酸化组学数据分析¶

激酶-底物预测：用已知激酶的磷酸化motif预测上游激酶
PhosphoSitePlus数据库：最权威的磷酸化位点数据库
NetPhorest/GPS：激酶底物预测工具
通路分析：差异磷酸化位点富集到信号通路（KEGG、Reactome）
激酶活性推断：根据多个已知底物的磷酸化变化推断激酶活性（KSEA）

实战代码¶

# === 磷酸化蛋白组学下游分析 ===
import pandas as pd
import numpy as np
from scipy.stats import ttest_ind

# 1. 读取MaxQuant磷酸化位点表
phospho = pd.read_csv("Phospho (STY)Sites.txt", sep="\t")

# 2. 基本过滤
phospho = phospho[phospho["Reverse"] != "+"]           # 去decoy
phospho = phospho[phospho["Potential contaminant"] != "+"]  # 去污染物
phospho = phospho[phospho["Localization prob"] > 0.75]  # 只保留高置信位点(Class I)
print(f"Class I磷酸化位点数: {len(phospho)}")

# 3. 提取强度数据并log2变换
intensity_cols = [c for c in phospho.columns if c.startswith("Intensity ")]
phospho_int = phospho[intensity_cols].replace(0, np.nan)  # 0替换为NaN
phospho_log2 = np.log2(phospho_int)  # log2变换

# 4. 差异磷酸化分析
group1 = intensity_cols[:3]  # 实验组
group2 = intensity_cols[3:6]  # 对照组

results = []
for i, row in phospho_log2.iterrows():
    g1 = row[group1].dropna().values
    g2 = row[group2].dropna().values
    if len(g1) >= 2 and len(g2) >= 2:
        fc = g1.mean() - g2.mean()  # log2FC
        _, pval = ttest_ind(g1, g2)
        results.append({
            "Gene": phospho.loc[i, "Gene names"],
            "Position": phospho.loc[i, "Position"],
            "Amino acid": phospho.loc[i, "Amino acid"],  # S/T/Y
            "log2FC": fc,
            "pvalue": pval
        })

df_res = pd.DataFrame(results)
print(f"差异磷酸化位点(|FC|>1, p<0.05): "
      f"{len(df_res[(abs(df_res['log2FC'])>1) & (df_res['pvalue']<0.05)])}")

# === 激酶活性推断（KSEA方法） ===
# 使用KSEAapp R包

# install.packages("KSEAapp")  # 需要先安装
library(KSEAapp)

# 准备输入数据：磷酸化位点的log2FC
# 格式：Substrate | Gene | Kinase | log2FC
ksea_input <- data.frame(
  Substrate = c("AKT1_S473", "GSK3B_S9", "MTOR_S2448"),  # 底物_位点
  Gene = c("AKT1", "GSK3B", "MTOR"),  # 基因名
  log2FC = c(1.5, -0.8, 2.1)  # 磷酸化变化倍数
)

# 运行KSEA分析
# ksea_result <- KSEA.Scores(ksea_input, ...)  # 推断激酶活性变化

面试常问点¶

Q1: 为什么磷酸化组学需要特殊的富集步骤？¶

参考答案：因为磷酸化是一种低化学计量比的修饰——一个蛋白的磷酸化比例通常只有1-10%，加上磷酸化肽段在电喷雾离子源中的电离效率偏低，如果不富集，它们的信号会被大量未修饰的肽段淹没。就像在一万个人里找10个戴红帽子的人，直接找很难，但如果先用"红帽子过滤器"把戴红帽子的人筛出来，就容易多了。

Q2: 磷酸化位点定位概率是什么？¶

参考答案：一个磷酸化肽段可能有多个潜在的磷酸化位点（比如肽段中有3个Ser），位点定位概率是通过碎片离子谱图计算的，表示磷酸基团在特定残基上的概率。例如ptmRS算法会计算每个候选位点的打分，概率>0.75的叫Class I（高置信度），0.5-0.75的叫Class II。发表论文通常只报告Class I位点。

速查卡片¶

问题	一句话答案
磷酸化主要发生在哪些氨基酸？	Ser(~86%)、Thr(~12%)、Tyr(~2%)
常用富集方法？	TiO2和IMAC，两种互补使用效果更好
Class I位点标准？	定位概率>0.75
PhosphoSitePlus是什么？	最权威的磷酸化位点及激酶-底物关系数据库
KSEA是什么？	激酶底物富集分析，用底物磷酸化变化推断激酶活性
人类基因组有多少激酶？	约500种蛋白激酶（"激酶组"）

磷酸化蛋白组学分析¶

一句话说明¶

核心知识点¶

要点1：磷酸化基础¶

要点2：磷酸化肽段富集¶

要点3：磷酸化位点定位¶

要点4：磷酸化组学数据分析¶

实战代码¶

面试常问点¶

Q1: 为什么磷酸化组学需要特殊的富集步骤？¶

Q2: 磷酸化位点定位概率是什么？¶

速查卡片¶

📚 相关文章推荐