841. AI蛋白质设计前沿¶
一句话概述:AI蛋白质设计 = 用深度学习从零开始设计自然界不存在的蛋白质,2025年成功率已从<10%飙升到>80%,正在革命性地改变药物发现。
核心知识点速查表¶
| 工具 | 功能 | 开发者 | 年份 |
|---|---|---|---|
| AlphaFold2 | 蛋白质结构预测 | DeepMind | 2021 |
| AlphaFold3 | 蛋白-核酸-小分子复合物 | DeepMind | 2024 |
| RFdiffusion | 蛋白质骨架生成 | Baker Lab | 2023 |
| ProteinMPNN | 序列设计(逆折叠) | Baker Lab | 2022 |
| ESM-3 | 蛋白质语言模型 | Meta | 2024 |
| Latent-X | 原子级蛋白设计 | 新兴 | 2025 |
一、白话理解AI蛋白质设计¶
传统方式(数十年方法):
→ 从天然蛋白质出发 → 随机突变 → 筛选 → 一个个试
→ 像大海捞针:20种氨基酸、100个位置 = 20^100种可能
→ 实验验证一个蛋白需要数周
AI设计方式(2022年后):
→ 告诉AI"我要一个结合流感病毒的蛋白质"
→ AI直接设计出来 → 实验验证命中率>80%
→ 从"大海捞针"变成"精确导航"
核心流程(三步走):
1. RFdiffusion: 设计蛋白质的3D骨架形状
→ 类似建筑师画出建筑的钢结构
2. ProteinMPNN: 为骨架填充氨基酸序列
→ 类似建筑师选择用什么材料填充
3. AlphaFold2: 验证设计是否能折叠成目标结构
→ 类似结构工程师检查大楼是否牢固
二、核心工具详解¶
2.1 AlphaFold2/3(结构预测)¶
# AlphaFold2 —— 蛋白质结构预测
# 2021年诺贝尔化学奖相关成果
# ColabFold 快速运行(不需要本地安装)
# 访问: https://colab.research.google.com/github/sokrypton/ColabFold
# 本地运行AlphaFold2
python run_alphafold.py \ # 运行AlphaFold
--fasta_paths=query.fasta \ # 输入序列
--output_dir=af2_output/ \ # 输出目录
--model_preset=monomer \ # 单体预测
--db_preset=full_dbs # 完整数据库
# AlphaFold3 (2024) —— 新增功能
# 不仅预测蛋白质结构,还能预测:
# - 蛋白质-蛋白质复合物
# - 蛋白质-DNA/RNA复合物
# - 蛋白质-小分子(药物)复合物
# - 蛋白质-离子复合物
2.2 RFdiffusion(骨架设计)¶
# RFdiffusion —— 从噪声中"扩散"出蛋白质骨架
# 安装(conda环境)
git clone https://github.com/RosettaCommons/RFdiffusion.git
cd RFdiffusion
conda env create -f env/SE3nv.yml # 创建环境
# 无条件生成(设计全新蛋白质)
python scripts/run_inference.py \
'contigmap.contigs=[100-100]' \ # 生成100个残基的蛋白质
inference.output_prefix=output/design \ # 输出前缀
inference.num_designs=10 # 生成10个设计
# 条件生成(设计结合特定靶标的蛋白质)
python scripts/run_inference.py \
'contigmap.contigs=[A1-100/0 70-100]' \ # 靶标A链+设计70-100残基
'ppi.hotspot_res=[A30,A33,A34]' \ # 靶标上的热点残基
inference.input_pdb=target.pdb \ # 靶标PDB结构
inference.output_prefix=output/binder \ # 输出
inference.num_designs=100 # 生成100个设计
# 2025年更新:RFdiffusion v2
# 可以设计原子精度的抗体(VHH、scFv、完整抗体)
# 冷冻电镜验证设计结构的原子精度
2.3 ProteinMPNN(序列设计)¶
# ProteinMPNN —— 逆折叠(骨架→序列)
# 安装
git clone https://github.com/dauparas/ProteinMPNN.git
cd ProteinMPNN
# 运行序列设计
python protein_mpnn_run.py \
--pdb_path design_backbone.pdb \ # 输入:RFdiffusion设计的骨架
--out_folder output/ \ # 输出目录
--num_seq_per_target 100 \ # 每个骨架设计100条序列
--sampling_temp 0.1 \ # 采样温度(越低越保守)
--backbone_noise 0.02 # 骨架噪声(增加多样性)
# 输出:为每个骨架生成多条候选氨基酸序列
# 然后用AlphaFold2筛选哪些序列能正确折叠
三、完整设计流程¶
# AI蛋白质设计标准流程 (2025)
# 步骤1:RFdiffusion生成骨架
python run_inference.py \
'contigmap.contigs=[A1-200/0 80-120]' \ # 靶标+设计长度
inference.input_pdb=target.pdb \ # 靶标结构
inference.num_designs=1000 # 生成1000个骨架
# 步骤2:ProteinMPNN设计序列
python protein_mpnn_run.py \
--pdb_path_multi designs/ \ # 所有骨架
--num_seq_per_target 8 # 每个骨架8条序列
# 步骤3:AlphaFold2验证
# 对每条序列预测结构
# 筛选标准:pLDDT>80 且 与设计骨架RMSD<2Å
# 步骤4:实验验证
# 合成基因 → 蛋白表达 → 结合实验
# 2025年成功率:>80%(历史性突破)
四、2025年新突破¶
1. 原子精度抗体设计 (Nature 2025)
→ RFdiffusion精调版可设计抗体CDR区域
→ 冷冻电镜验证设计的原子精度
→ 成功设计了靶向流感和梭菌毒素的抗体
2. Latent-X (2025)
→ 命中率>90%(超过RFdiffusion)
→ 大环肽设计+小蛋白设计
→ 结合亲和力达到低纳摩尔-皮摩尔级别
3. BindCraft (2025)
→ AlphaFold2引导的反向传播设计
→ 只需筛选~10个设计就能找到高亲和力结合蛋白
→ 考虑靶标柔性(共折叠)
4. Salad (Nature Machine Intelligence 2025)
→ 稀疏全原子去噪模型
→ 1000残基蛋白只需19秒(RFdiffusion需10分钟)
五、面试高频问题¶
Q: AlphaFold解决了什么问题? A: 蛋白质结构预测问题——从氨基酸序列预测3D结构,准确度接近实验方法(CASP14竞赛碾压其他方法)。AlphaFold3进一步扩展到蛋白质-核酸-小分子复合物预测。
Q: RFdiffusion和AlphaFold有什么区别? A: AlphaFold做预测(已有序列→预测结构),RFdiffusion做设计(从零开始→生成全新骨架)。前者是"看图识物",后者是"凭空创造"。
Q: AI蛋白质设计对制药有什么影响? A: 革命性影响。传统抗体发现需要动物免疫+筛选(数月-数年),AI设计可在数天内生成候选分子,成功率从<10%提升到>80%。