跳转至

摘要: 抗体-抗原亲和力预测对抗体药物发现、抗体库分析和亲和力成熟至关重要,但实验测量数据相对于序列库规模而言十分稀缺。现有基于序列的预测模型虽具备可扩展性,却往往将重链和轻链压缩为单一抗体表示,或将抗体与抗原特征简单拼接,导致链特异性和表位特异性信号丢失。为此,本文提出 AbAffinity——一种仅依赖序列输入的链感知三流架构,将重链、轻链和抗原作为独立流分别处理。该模型融合了冻结的 ESM-2 嵌入、以 CDR 区域为中心的池化机制、重链-轻链自注意力、自适应融合门控及门控交叉注意力,仅训练轻量级交互模块。在 SAAINT-DB 基准测试中,AbAffinity 在十折交叉验证下表现出强劲的预测性能,并在新抗原上保持良好泛化能力,在 SAbDab、AB-Bind 和 SKEMPI 2.0 等外部基准上持续优于现有序列模型。消融实验验证了链特异性表示、CDR 聚焦池化及门控交互路径各组件的贡献,集成梯度归因分析亦成功定位了结构验证界面上的已知互补决定区和表位残基。AbAffinity 为结构信息有限或缺失时的抗体筛选与优先排序提供了轻量、可解释的序列优先框架。


AbAffinity:基于链感知蛋白质语言模型的抗体-抗原亲和力预测

概述

抗体-抗原(Antibody-Antigen)亲和力是治疗性抗体发现、抗体库分析和亲和力成熟(Affinity Maturation)流程中的核心筛选指标。然而,相对于庞大的序列库规模,实验测量数据极为稀缺,这在早期药物发现阶段构成严重瓶颈。

现有预测方法分为两类:基于结构的预测器(Structure-based Predictor)能够利用复合物界面几何信息,但其前提是存在可靠的抗体-抗原复合物三维结构,而在早期发现阶段这一条件往往不满足;基于序列的模型(Sequence-based Model)虽然可扩展性强,但通常将重链(Heavy Chain)和轻链(Light Chain)压缩为单一抗体表示,或将抗体与抗原特征直接拼接,从而掩盖了驱动结合的链特异性(Chain-specific)和表位特异性(Epitope-specific)信号。

AbAffinity 是一个纯序列输入、链感知(Chain-aware)的三流(Three-stream)神经网络架构,专为解决上述问题而设计。它将重链、轻链和抗原作为独立数据流分别建模,结合冻结的 ESM-2 嵌入(Embedding)、CDR 聚焦池化、重链-轻链自注意力、自适应融合门控与门控交叉注意力机制,仅训练一个紧凑的交互模块(Interaction Module)。AbAffinity 在 SAAINT-DB 基准及多个外部数据集上均超越现有序列级模型,为无结构信息场景下的抗体筛选与优先级排序提供了轻量、可解释的解决方案。


核心原理与功能

1. 问题定义与动机

抗体-抗原亲和力预测的难点在于以下几个相互制约的因素:

  • 数据稀缺性:实验测量(如 SPR、ITC 等方法获得的 $K_D$ 值)相对序列空间极为稀少。
  • 结构依赖性:高精度的结构预测器需要已知的复合物结构,但早期发现阶段通常只有序列信息。
  • 信息压缩问题:现有序列模型往往将重链和轻链合并处理,丢失了 CDR(Complementarity-Determining Region,互补决定区)等关键区域的链特异性信号。
  • 大规模筛选需求:需要对大量重链-轻链配对与抗原组合进行排序,计算效率不可忽视。

AbAffinity 的设计目标是:在无需三维复合物结构的前提下,提供准确、可扩展且可解释的亲和力预测。

2. 三流架构(Three-stream Architecture)

AbAffinity 的核心设计理念是将三条独立的序列流分开处理,避免过早融合造成信息损失:

数据流输入作用
重链流(Heavy Chain Stream)抗体重链序列捕获 CDR-H 区域的结合信号
轻链流(Light Chain Stream)抗体轻链序列捕获 CDR-L 区域的辅助结合信号
抗原流(Antigen Stream)抗原序列捕获表位(Epitope)相关特征

三条流在早期阶段独立编码,在后续交互模块中进行受控融合,确保链特异性信号在整个前向传播过程中得以保留。

3. 冻结 ESM-2 嵌入(Frozen ESM-2 Embeddings)

AbAffinity 使用 ESM-2(Evolutionary Scale Modeling 2)作为序列编码器的骨干。ESM-2 是目前最先进的蛋白质语言模型之一,其参数在训练 AbAffinity 时保持冻结(Frozen)状态,具体意义如下:

  • 参数高效:仅训练下游交互模块,大幅降低可训练参数量,减少过拟合风险。
  • 知识迁移:利用 ESM-2 在海量蛋白质序列上预训练获得的进化信息与结构偏置。
  • 计算可行:无需对大规模语言模型进行微调,显著降低 GPU 内存和计算需求。

三条序列流分别通过 ESM-2 获取位置感知的残基级嵌入表示。

4. CDR 聚焦池化(CDR-focused Pooling)

对于重链流,AbAffinity 设计了专门的 CDR 聚焦池化机制:

  • 抗体的结合特异性主要由 CDR 区域(CDR-H1、CDR-H2、CDR-H3)决定,尤其是 CDR-H3,其序列多样性最高,对亲和力贡献最大。
  • 标准的平均池化(Mean Pooling)会将 CDR 区残基的信号稀释于框架区(Framework Region)的背景噪声中。
  • CDR 聚焦池化通过对 CDR 区域位置赋予更高权重,使模型在生成重链表示时更关注功能相关残基。

5. 重链-轻链自注意力(Heavy-Light Self-Attention)

重链和轻链共同构成抗体的可变区(Variable Region),两者在空间上形成 VH-VL 界面,协同决定抗原结合位。AbAffinity 通过 重链-轻链自注意力 模块对这种链间相互作用进行显式建模:

  • 将重链和轻链表示拼接后输入自注意力层,允许模型学习 VH-VL 配对的协同效应。
  • 相比简单拼接特征向量,注意力机制能够动态识别重链-轻链之间的关键接触残基对。

6. 自适应融合门控(Adaptive Fusion Gating)

在整合多路信号时,AbAffinity 引入 自适应融合门控 机制,对不同信息来源的贡献进行动态加权:

  • 门控值由输入数据本身计算得到(非固定超参数),使模型能够根据具体序列上下文决定各流贡献权重。
  • 避免了简单加法或拼接融合可能引入的冗余噪声。

7. 门控交叉注意力(Gated Cross-Attention)

抗体与抗原之间的亲和力最终由其界面残基间的物理化学互补性决定。门控交叉注意力 模块负责对这一过程建模:

  • 以抗体表示(融合后的重链+轻链)作为查询(Query),以抗原表示作为键值对(Key-Value),执行交叉注意力计算。
  • 额外引入门控机制,过滤低置信度的抗体-抗原接触信号,提升信噪比。
  • 这一设计使模型能够在序列层面隐式推断表位-旁位(Epitope-Paratope)相互作用。

8. 可解释性:整合梯度归因(Integrated Gradients Attributions)

AbAffinity 集成了 Integrated Gradients(整合梯度) 可解释性方法:

  • 对预测亲和力分数,计算每个输入残基的重要性归因分数。
  • 实验结果显示,归因分析能够在结构验证的界面处准确定位已知的旁位(Paratope)和表位(Epitope)残基。
  • 这为研究人员提供了序列层面的结合机制洞察,支持理性设计(Rational Design)决策。

9. 基准评测结果

AbAffinity 在多个公开基准上进行了系统评测:

基准数据集评测方式结论
SAAINT-DB十折交叉验证(Ten-fold Cross-validation)强预测性能;对新型抗原保持稳健准确率
SAbDab外部基准超越现有序列级模型
AB-Bind外部基准超越现有序列级模型
SKEMPI 2.0外部基准超越现有序列级模型

消融实验(Ablation Studies)证实了链特异性表示、CDR 聚焦池化和门控交互路径各自的独立贡献。


关键方法与步骤

原文为研究论文,未提供公开代码库或安装命令,以下整理其方法论核心步骤。

步骤一:输入序列准备

# 输入要求(三条独立序列):
# - 抗体重链(VH 区序列,氨基酸单字母格式)
# - 抗体轻链(VL 区序列,氨基酸单字母格式)
# - 抗原序列(全长或关键结合域序列)

# 示例输入格式(伪代码):
heavy_chain = "EVQLVESGGGLVQPGGSLRLSCAAS..."   # 重链序列
light_chain  = "DIQMTQSPSSLSASVGDRVTITCRAS..."  # 轻链序列
antigen      = "NITNLCPFGEVFNATRFASVYAWNRKR..."  # 抗原序列

步骤二:ESM-2 嵌入提取(冻结推理)

# 使用冻结 ESM-2 对三条序列分别提取残基级嵌入
# ESM-2 参数不参与梯度更新(torch.no_grad() 或 requires_grad=False)

# 伪代码示意:
with torch.no_grad():
    # 分别对重链、轻链、抗原提取嵌入
    h_heavy  = esm2_model(tokenize(heavy_chain))   # 重链残基嵌入 [L_H, d]
    h_light  = esm2_model(tokenize(light_chain))   # 轻链残基嵌入 [L_L, d]
    h_antigen = esm2_model(tokenize(antigen))       # 抗原残基嵌入 [L_A, d]

步骤三:CDR 聚焦池化(重链)

# 需要 CDR 区域的位置注释(可通过 IMGT 编号方案获取)
# CDR-H1、CDR-H2、CDR-H3 位置索引
cdr_indices = get_cdr_positions(heavy_chain, scheme="IMGT")  # 获取 CDR 位置

# CDR 聚焦池化:对 CDR 区域残基赋予更高权重后聚合
h_heavy_pooled = cdr_focused_pool(h_heavy, cdr_indices)  # 输出重链全局表示 [d]

步骤四:重链-轻链自注意力交互

# 拼接重链与轻链残基嵌入,送入自注意力模块
h_hl_concat = concat([h_heavy, h_light], dim=0)   # [L_H + L_L, d]
h_hl_attn   = self_attention_module(h_hl_concat)   # 捕获 VH-VL 链间相互作用

步骤五:自适应融合门控

# 对重链-轻链联合表示执行自适应门控融合
gate_values = sigmoid(linear(h_hl_attn))           # 动态计算门控权重
h_antibody  = gate_values * h_hl_attn              # 加权融合,得到抗体统一表示

步骤六:门控交叉注意力(抗体-抗原)

# 以抗体表示为 Query,抗原表示为 Key/Value 执行交叉注意力
h_interaction = gated_cross_attention(
    query  = h_antibody,    # 抗体表示
    key    = h_antigen,     # 抗原残基嵌入
    value  = h_antigen      # 抗原残基嵌入
)
# 门控机制过滤低置信度接触信号

步骤七:亲和力预测与归因分析

# 通过 MLP 头(预测头)输出亲和力分数(如 pKd 或相对排名分数)
affinity_score = mlp_head(h_interaction)   # 标量输出

# 可解释性分析:使用 Integrated Gradients 计算残基归因
from captum.attr import IntegratedGradients
ig = IntegratedGradients(model)
attributions = ig.attribute(inputs=(h_heavy, h_light, h_antigen),
                            target=affinity_score)
# attributions 中高分残基对应功能性旁位/表位残基

实战示例

场景一:早期抗体发现中的候选对排序

背景:针对某新型病毒蛋白(无已知抗体复合物结构),从合成文库中筛选出 10,000 条重链-轻链配对序列,需快速排序亲和力。

AbAffinity 工作流

  1. 收集 10,000 条 VH 序列、对应 VL 序列,以及靶抗原序列。
  2. 批量通过 ESM-2 提取嵌入(冻结推理,GPU 并行加速)。
  3. 运行 AbAffinity 交互模块,为每对重链-轻链组合输出亲和力预测分数。
  4. 按分数降序排列,优先推进 Top 1% 候选进入实验验证。
  5. 使用 Integrated Gradients 分析 Top 候选的旁位残基,指导后续点突变优化。

关键优势:无需任何复合物结构;计算开销主要在冻结 ESM-2 推理(可批量预计算);交互模块参数量小,排序延迟低。

场景二:亲和力成熟过程中的突变体评估

背景:对亲本抗体进行饱和突变(Saturation Mutagenesis),产生数千个单点突变体,需预测哪些突变提升亲和力($\Delta\Delta G < 0$)。

AbAffinity 工作流

  1. 固定轻链序列和抗原序列不变,仅对重链序列逐位替换氨基酸生成突变体集合。
  2. 以野生型亲和力预测分数为基线,计算每个突变体的 $\Delta$ 预测分数。
  3. 重点关注 CDR-H3 区域突变,结合 Integrated Gradients 归因分析的高贡献位点。
  4. 优先推进预测分数改善 $>$ 阈值的突变体进入 SPR 实验验证。

场景三:新型抗原的泛化评估(参考 SAAINT-DB 结果)

论文报告了 AbAffinity 在 SAAINT-DB 数据集上对新型抗原(Novel Antigens,训练集中未出现过的抗原类型)的预测表现保持稳健准确率,说明模型具备一定的跨抗原泛化能力,适用于针对全新靶点的从头筛选(De Novo Screening)任务。[待验证:具体 PCC/RMSE 数值需参阅原文正式发表版本]


常见问题

Q1:AbAffinity 是否需要抗体-抗原复合物的三维结构作为输入?

不需要。AbAffinity 是纯序列(Sequence-only)方法,仅接受重链、轻链和抗原的氨基酸序列作为输入,不依赖任何结构信息。这正是其相较于基于结构的预测器的核心优势——适用于早期发现阶段无结构数据的场景。

Q2:为什么要将重链和轻链作为独立流,而非拼接为单一抗体序列?

现有方法将重链和轻链合并(拼接或求平均)会导致链特异性信号被稀释,CDR 区域的精细结合信息丢失。AbAffinity 的消融实验明确证实,链特异性表示(Chain-specific Representations)对最终预测性能有显著独立贡献。独立流设计还允许 CDR 聚焦池化等专门机制作用于各自的链,进一步提升信号保真度。

Q3:ESM-2 的参数为何保持冻结,而非与交互模块联合微调?

冻结 ESM-2 有多重考量:其一,训练数据规模(亲和力标注数据)相对有限,联合微调大规模语言模型极易过拟合;其二,冻结使可训练参数数量显著减少,降低计算和存储开销;其三,ESM-2 预训练获得的蛋白质进化信息已足够丰富,冻结后仍能为下游任务提供高质量初始表示。[待验证:是否有消融对比微调 vs 冻结的定量结果]

Q4:Integrated Gradients 归因分析的结果如何验证可信度?

论文中指出,归因分析识别出的高分残基位点,在结构验证的抗体-抗原复合物界面上与已知旁位(Paratope)和表位(Epitope)残基高度吻合。这一验证方式依赖于具有已知结构信息的复合物数据集(如 SAbDab 中的结构条目),通过比对预测归因热点与晶体结构中的接触残基来评估一致性。

Q5:AbAffinity 是否适用于纳米抗体(Nanobody)或单链抗体(scFv)等非传统格式?

论文中未明确讨论纳米抗体或 scFv 的适用性。纳米抗体仅含重链可变区(VHH),无对应轻链,其直接应用可能需要对轻链流进行特殊处理(如用空序列占位或修改架构)。[待验证:需参阅原文或后续工作的具体说明]


总结

AbAffinity 提出了一种链感知三流序列架构,系统性地解决了现有抗体-抗原亲和力预测方法中链信息压缩与结构依赖两大核心局限。其关键贡献包括:将重链、轻链、抗原作为独立流分别建模;引入 CDR 聚焦池化强化功能区信号;通过重链-轻链自注意力、自适应融合门控和门控交叉注意力逐层建模链内、链间及抗体-抗原相互作用;冻结 ESM-2 实现参数高效训练;Integrated Gradients 归因提供残基级可解释性。在 SAAINT-DB、SAbDab、AB-Bind 和 SKEMPI 2.0 四个基准上的系统评测表明,AbAffinity 持续超越现有序列级方法,且对新型抗原具备稳健泛化能力。作为一个轻量、可解释、无结构依赖的预测框架,AbAffinity 为抗体早期筛选与优先级排序提供了切实可用的计算工具。