跳转至

841. AI蛋白质设计前沿

一句话概述:AI蛋白质设计 = 用深度学习从零开始设计自然界不存在的蛋白质,2025年成功率已从<10%飙升到>80%,正在革命性地改变药物发现。

核心知识点速查表

工具功能开发者年份
AlphaFold2蛋白质结构预测DeepMind2021
AlphaFold3蛋白-核酸-小分子复合物DeepMind2024
RFdiffusion蛋白质骨架生成Baker Lab2023
ProteinMPNN序列设计(逆折叠)Baker Lab2022
ESM-3蛋白质语言模型Meta2024
Latent-X原子级蛋白设计新兴2025

一、白话理解AI蛋白质设计

传统方式(数十年方法):
→ 从天然蛋白质出发 → 随机突变 → 筛选 → 一个个试
→ 像大海捞针:20种氨基酸、100个位置 = 20^100种可能
→ 实验验证一个蛋白需要数周

AI设计方式(2022年后):
→ 告诉AI"我要一个结合流感病毒的蛋白质"
→ AI直接设计出来 → 实验验证命中率>80%
→ 从"大海捞针"变成"精确导航"

核心流程(三步走):
1. RFdiffusion: 设计蛋白质的3D骨架形状
   → 类似建筑师画出建筑的钢结构
2. ProteinMPNN: 为骨架填充氨基酸序列
   → 类似建筑师选择用什么材料填充
3. AlphaFold2: 验证设计是否能折叠成目标结构
   → 类似结构工程师检查大楼是否牢固

二、核心工具详解

2.1 AlphaFold2/3(结构预测)

# AlphaFold2 —— 蛋白质结构预测
# 2021年诺贝尔化学奖相关成果

# ColabFold 快速运行(不需要本地安装)
# 访问: https://colab.research.google.com/github/sokrypton/ColabFold

# 本地运行AlphaFold2
python run_alphafold.py \              # 运行AlphaFold
    --fasta_paths=query.fasta \        # 输入序列
    --output_dir=af2_output/ \         # 输出目录
    --model_preset=monomer \           # 单体预测
    --db_preset=full_dbs               # 完整数据库

# AlphaFold3 (2024) —— 新增功能
# 不仅预测蛋白质结构,还能预测:
# - 蛋白质-蛋白质复合物
# - 蛋白质-DNA/RNA复合物
# - 蛋白质-小分子(药物)复合物
# - 蛋白质-离子复合物

2.2 RFdiffusion(骨架设计)

# RFdiffusion —— 从噪声中"扩散"出蛋白质骨架

# 安装(conda环境)
git clone https://github.com/RosettaCommons/RFdiffusion.git
cd RFdiffusion
conda env create -f env/SE3nv.yml      # 创建环境

# 无条件生成(设计全新蛋白质)
python scripts/run_inference.py \
    'contigmap.contigs=[100-100]' \     # 生成100个残基的蛋白质
    inference.output_prefix=output/design \  # 输出前缀
    inference.num_designs=10           # 生成10个设计

# 条件生成(设计结合特定靶标的蛋白质)
python scripts/run_inference.py \
    'contigmap.contigs=[A1-100/0 70-100]' \  # 靶标A链+设计70-100残基
    'ppi.hotspot_res=[A30,A33,A34]' \  # 靶标上的热点残基
    inference.input_pdb=target.pdb \   # 靶标PDB结构
    inference.output_prefix=output/binder \  # 输出
    inference.num_designs=100          # 生成100个设计

# 2025年更新:RFdiffusion v2
# 可以设计原子精度的抗体(VHH、scFv、完整抗体)
# 冷冻电镜验证设计结构的原子精度

2.3 ProteinMPNN(序列设计)

# ProteinMPNN —— 逆折叠(骨架→序列)

# 安装
git clone https://github.com/dauparas/ProteinMPNN.git
cd ProteinMPNN

# 运行序列设计
python protein_mpnn_run.py \
    --pdb_path design_backbone.pdb \   # 输入:RFdiffusion设计的骨架
    --out_folder output/ \             # 输出目录
    --num_seq_per_target 100 \         # 每个骨架设计100条序列
    --sampling_temp 0.1 \              # 采样温度(越低越保守)
    --backbone_noise 0.02              # 骨架噪声(增加多样性)

# 输出:为每个骨架生成多条候选氨基酸序列
# 然后用AlphaFold2筛选哪些序列能正确折叠

三、完整设计流程

# AI蛋白质设计标准流程 (2025)

# 步骤1:RFdiffusion生成骨架
python run_inference.py \
    'contigmap.contigs=[A1-200/0 80-120]' \  # 靶标+设计长度
    inference.input_pdb=target.pdb \   # 靶标结构
    inference.num_designs=1000         # 生成1000个骨架

# 步骤2:ProteinMPNN设计序列
python protein_mpnn_run.py \
    --pdb_path_multi designs/ \        # 所有骨架
    --num_seq_per_target 8             # 每个骨架8条序列

# 步骤3:AlphaFold2验证
# 对每条序列预测结构
# 筛选标准:pLDDT>80 且 与设计骨架RMSD<2Å

# 步骤4:实验验证
# 合成基因 → 蛋白表达 → 结合实验
# 2025年成功率:>80%(历史性突破)

四、2025年新突破

1. 原子精度抗体设计 (Nature 2025)
   → RFdiffusion精调版可设计抗体CDR区域
   → 冷冻电镜验证设计的原子精度
   → 成功设计了靶向流感和梭菌毒素的抗体

2. Latent-X (2025)
   → 命中率>90%(超过RFdiffusion)
   → 大环肽设计+小蛋白设计
   → 结合亲和力达到低纳摩尔-皮摩尔级别

3. BindCraft (2025)
   → AlphaFold2引导的反向传播设计
   → 只需筛选~10个设计就能找到高亲和力结合蛋白
   → 考虑靶标柔性(共折叠)

4. Salad (Nature Machine Intelligence 2025)
   → 稀疏全原子去噪模型
   → 1000残基蛋白只需19秒(RFdiffusion需10分钟)

五、面试高频问题

  1. Q: AlphaFold解决了什么问题? A: 蛋白质结构预测问题——从氨基酸序列预测3D结构,准确度接近实验方法(CASP14竞赛碾压其他方法)。AlphaFold3进一步扩展到蛋白质-核酸-小分子复合物预测。

  2. Q: RFdiffusion和AlphaFold有什么区别? A: AlphaFold做预测(已有序列→预测结构),RFdiffusion做设计(从零开始→生成全新骨架)。前者是"看图识物",后者是"凭空创造"。

  3. Q: AI蛋白质设计对制药有什么影响? A: 革命性影响。传统抗体发现需要动物免疫+筛选(数月-数年),AI设计可在数天内生成候选分子,成功率从<10%提升到>80%。

速查表

# AI蛋白质设计工具链
结构预测:  AlphaFold2/3, ESMFold
骨架设计:  RFdiffusion, Chroma, FrameFlow
序列设计:  ProteinMPNN, LigandMPNN, ESM-IF
验证筛选:  AlphaFold2 (pLDDT+RMSD)

# 常用数据库
PDB:      实验解析的蛋白质结构
AFDB:     AlphaFold预测的蛋白质结构库
UniProt:  蛋白质序列和功能注释

# 设计成功率(2025)
RFdiffusion:  ~80%
Latent-X:     ~90%
BindCraft:    ~10个设计中找到命中
传统方法:     <10%