摘要: 蛋白质聚集是多种神经退行性疾病的核心机制，但现有计算预测方法大多将聚集过程简化为静态风险评分，无法区分成核与延伸两个阶段的结构决定因素。本文提出SKALE 2.0——一种相态分辨的几何深度学习框架，将蛋白质表示为多模态结构图，直接从三维拓扑结构中学习突变诱导的聚集表型。研究以SOD1、TDP-43、MAPT和PRNP为对象，发现SKALE 2.0能恢复从成核到延伸的保守潜在转变，同时解析出突变特异性的相态敏感性差异。对比实验表明，蛋白质语言模型、AlphaFold衍生特征及非相态感知结构基线均无法捕捉这种相态依赖的突变调控规律，说明显式相态条件化建模不可或缺。框架揭示：成核优先受埋藏疏水扰动驱动，而延伸则由支持纤维传播的溶剂可及界面主导。这一机制解释了致病突变如何在蛋白整体折叠保持完好的情况下，通过局部结构重构获得聚集能力。重组SOD1实验验证了预测的抑制型、增强型及相态切换突变，证明聚集起始与传播可被独立调控。SKALE 2.0为聚集抑制剂的约束感知设计提供了新的理论框架。

SKALE 2.0：相位分辨几何深度学习框架用于蛋白质聚集结构决定因素解析与抑制剂设计¶

概述¶

蛋白质异常聚集（protein aggregation）是阿尔茨海默病、肌萎缩侧索硬化症（ALS）、额颞叶痴呆等主要神经退行性疾病的核心病理机制。然而，现有的计算预测工具普遍存在一个根本性缺陷：将聚集过程简化为单一的静态风险评分，无法区分聚集两个关键阶段——成核（nucleation）与延伸（elongation）——的结构决定因素。

本文介绍的 SKALE 2.0 是一个相位分辨（phase-resolved）几何深度学习框架。它将蛋白质表示为多模态结构图（multimodal structural graphs），直接从三维拓扑结构中学习突变诱导的聚集表型（mutation-induced aggregation phenotypes）。该框架的核心创新在于：通过显式相位条件化（explicit phase conditioning），在原子尺度拓扑结构与相位特异性组装动力学之间建立了直接联系，并能够指导聚集抑制剂的约束感知设计（constraint-aware design）。

SKALE 2.0 的重要性体现在以下三个维度：其一，它揭示了致病变异如何在整体折叠结构保持不变的情况下，通过局部结构重连（localized structural rewiring）获得聚集能力；其二，它实验性地验证了预测的抑制子（suppressor）、增强子（enhancer）和相位切换突变（phase-switch mutation）；其三，它证明了聚集的起始（initiation）和传播（propagation）可以被独立调控，为靶向干预提供了全新视角。

核心原理与功能¶

1. 相位分辨建模（Phase-Resolved Modeling）¶

传统聚集预测工具将成核与延伸视为同一过程，输出单一风险分数。SKALE 2.0 的核心突破在于引入显式相位条件化机制，将蛋白质聚集的两个阶段作为独立的计算目标分别建模：

成核阶段（Nucleation Phase）：对应聚集体从单体自发形成寡聚核的过程，是聚集启动的限速步骤。
延伸阶段（Elongation Phase）：对应已有核心持续招募单体、纤维丝（fibril）不断生长传播的过程。

实验结果表明，该框架在 SOD1、TDP-43、MAPT（Tau 蛋白相关基因）和 PRNP（朊蛋白基因）四个与神经退行性疾病高度相关的蛋白质上，成功恢复了从成核到延伸的保守潜在转变（conserved latent transition），同时解析了突变特异性相位敏感性（mutation-specific phase sensitivities）的差异。

2. 几何深度学习与多模态结构图（Geometric Deep Learning & Multimodal Structural Graphs）¶

SKALE 2.0 采用几何深度学习（Geometric Deep Learning, GDL）作为核心架构，将蛋白质三维结构编码为多模态结构图。该图表示方法整合了蛋白质的三维拓扑信息，使模型能够直接从原子空间坐标和连接关系中提取与相位特异性聚集相关的几何特征，而非依赖序列特征或预计算的结构描述符。

这种表示方式的优势在于： - 能够捕捉突变引入的局部结构扰动，即使这些扰动不影响蛋白质的整体折叠状态。 - 对三维拓扑变化具有内在的空间感知能力，可区分埋藏疏水性扰动（buried hydrophobic perturbations）与溶剂可及界面变化（solvent-accessible interface changes）。

3. 相位特异性结构几何规律（Phase-Specific Structural Geometry）¶

SKALE 2.0 学习到的几何特征揭示了两个阶段截然不同的结构驱动力：

聚集阶段	主要结构驱动力	生物学解释
成核（Nucleation）	埋藏疏水性扰动（buried hydrophobic perturbations）	蛋白质内核疏水残基的暴露或重排，降低形成聚集核所需的能量壁垒
延伸（Elongation）	溶剂可及界面（solvent-accessible interfaces）	暴露在溶剂中的表面特征，支持纤维丝招募新单体并持续传播

这一发现从结构层面解释了一个长期困扰领域的问题：致病变异为何可以在蛋白质整体折叠结构基本正常的情况下，仍然触发聚集——其机制在于局部结构重连（localized structural rewiring）改变了相位特异性几何特征，而非破坏整体折叠稳定性。

4. 与基线模型的对比（Baseline Comparisons）¶

研究系统性测试了以下基线方法，均无法同时满足相位依赖性突变调控（phase-dependent mutation modulation）和相位可分性（phase separability）两项指标：

蛋白质语言模型（Protein Language Model, PLM）：仅基于序列信息，缺乏三维结构感知能力。
AlphaFold 衍生特征（AlphaFold-derived features）：虽包含结构信息，但未引入相位条件化。
非相位感知结构基线（Non-phase-aware structural baselines）：具备结构图表示，但将两个相位混合处理。

这一消融结果直接证明：显式相位条件化是恢复相位分辨聚集表型的必要条件，而非可选组件。

5. 突变效应分类与预测（Mutation Effect Classification）¶

SKALE 2.0 能够对蛋白质突变进行三类效应的预测：

抑制子突变（Suppressor Mutations）：降低特定聚集相位的倾向，可作为工程化设计的靶标。
增强子突变（Enhancer Mutations）：增强特定相位的聚集能力，对应已知的致病增益功能变异。
相位切换突变（Phase-Switch Mutations）：在不改变总体聚集风险的情况下，将突变效应从一个相位切换至另一相位，揭示成核与延伸通路的相对独立性。

6. 约束感知抑制剂设计（Constraint-Aware Suppressor Design）¶

框架的最终应用层为基于学习到的相位特异性几何约束，指导聚集抑制剂的理性设计。通过理解何种局部结构特征驱动成核或延伸，可以系统性地筛选或设计能够选择性干预特定聚集相位的突变或小分子靶点。

关键方法与步骤¶

由于原文为学术论文，未公开代码仓库或安装命令，以下整理其核心方法流程供参考。[待验证] 代码实现的具体细节可参考原始论文补充材料。

步骤一：蛋白质结构图构建¶

# 输入：蛋白质三维结构（来自实验结构或 AlphaFold 预测）
# 目标蛋白质：SOD1、TDP-43、MAPT、PRNP 等神经退行性疾病相关蛋白

# 构建多模态结构图（Multimodal Structural Graph）
# 节点（Node）：氨基酸残基或原子
# 边（Edge）：共价键、氢键、疏水接触、溶剂可及性等多模态特征
# 节点特征：三维坐标、残基类型、溶剂可及表面积（SASA）、疏水性指数

输入特征维度：
  - 三维拓扑坐标（3D topology coordinates）
  - 残基级别理化属性（residue-level physicochemical properties）
  - 溶剂可及性（solvent accessibility）
  - 疏水埋藏程度（hydrophobic burial depth）

步骤二：相位标签数据准备¶

# 聚集动力学实验数据来源：
# - 硫黄素 T（ThT）荧光动力学曲线：用于提取成核速率常数和延伸速率常数
# - 重组 SOD1 蛋白体外聚集实验
#
# 相位标签定义：
# - 成核标签（Nucleation label）：对应聚集动力学曲线的迟滞期（lag time）变化
# - 延伸标签（Elongation label）：对应聚集动力学曲线的增长速率（growth rate）变化
#
# 突变效应标注：
# - Suppressor：目标相位速率显著降低
# - Enhancer：目标相位速率显著升高
# - Phase-switch：成核与延伸效应方向相反

步骤三：SKALE 2.0 模型训练¶

# 框架核心：几何深度学习（Geometric Deep Learning）
# 关键设计：显式相位条件化（Explicit Phase Conditioning）
#
# 训练目标：
# - 同时学习成核相位和延伸相位的突变效应
# - 在潜在空间中实现相位可分性（phase separability）
# - 恢复从成核到延伸的保守潜在转变（conserved latent transition）
#
# 基线对比实验（均未能同时满足两项指标）：
# - 蛋白质语言模型基线（PLM baseline）
# - AlphaFold 衍生特征基线（AlphaFold-derived feature baseline）
# - 非相位感知结构基线（Non-phase-aware structural baseline）

步骤四：突变效应预测与验证¶

# 预测输出：
# - 相位分辨聚集评分（Phase-resolved aggregation scores）
#   score_nucleation：成核相位聚集倾向变化
#   score_elongation：延伸相位聚集倾向变化
#
# 实验验证流程（以重组 SOD1 为例）：
# 1. 根据模型预测筛选候选突变（suppressor / enhancer / phase-switch）
# 2. 表达纯化重组 SOD1 突变体蛋白
# 3. 开展体外聚集动力学实验（ThT 荧光法）
# 4. 提取成核速率常数与延伸速率常数
# 5. 与 SKALE 2.0 预测结果进行对比验证

步骤五：抑制剂设计应用¶

# 约束感知设计策略（Constraint-Aware Design）：
#
# 针对成核相位干预：
# - 靶向埋藏疏水性残基位点（buried hydrophobic residue sites）
# - 设计可稳定疏水核心、减少疏水暴露的突变
#
# 针对延伸相位干预：
# - 靶向溶剂可及界面区域（solvent-accessible interface regions）
# - 破坏支持纤维丝传播的表面互补性
#
# 关键发现：成核与延伸可被独立调控（independently tunable）
# → 实现靶向相位特异性干预，避免对蛋白质正常功能的影响

实战示例¶

示例一：SOD1 突变效应的相位分辨预测¶

SOD1（铜锌超氧化物歧化酶）是 ALS 相关的经典聚集蛋白。SKALE 2.0 在 SOD1 上的应用展示了框架的核心能力：

对 SOD1 已知致病突变（如 A4V、G93A 等 [待验证具体测试突变列表]）进行相位分辨评分，区分其对成核速率与延伸速率的不同贡献。
发现部分突变呈现相位切换表型：对成核相位表现为抑制效应，而对延伸相位表现为增强效应（或反之），说明单一聚集风险评分会产生相互抵消的误判。
重组 SOD1 体外实验实验验证了预测的三类突变：抑制子突变导致聚集动力学迟滞期延长，增强子突变加速成核，相位切换突变选择性改变某一相位动力学参数而对另一相位影响有限。

示例二：跨蛋白质的保守潜在转变发现¶

在 SOD1、TDP-43、MAPT 和 PRNP 四种结构和序列各异的蛋白质上，SKALE 2.0 的潜在空间分析揭示了一个保守的从成核到延伸的潜在转变轨迹。这意味着：

尽管不同蛋白质的序列和结构差异显著，其相位依赖性聚集的几何逻辑在潜在表示层面是共享的。
该发现支持跨疾病通用抑制剂设计策略的可行性——针对共享几何约束而非蛋白质特异性序列进行设计。

示例三：致病变异的"局部重连"机制阐释¶

以一个典型致病变异为例（具体突变位点 [待验证]）：

观察现象：
  - 整体折叠结构（global fold）：AlphaFold 预测的 TM-score 与野生型接近，提示整体稳定性未受影响
  - 体外聚集实验：该突变体聚集速率显著高于野生型

SKALE 2.0 的解释机制：
  - 成核相位评分：显著升高（↑）
  - 局部结构分析：突变位点周围的埋藏疏水性残基网络发生重连
  - 疏水接触图（hydrophobic contact map）变化：形成新的局部疏水暴露微环境
  - 结论：局部疏水性重连降低了成核能量壁垒，而不影响整体折叠热力学

常见问题¶

Q1：SKALE 2.0 与现有聚集预测工具（如 Zyggregator、TANGO、CamSol）的核心区别是什么？

A：现有工具普遍输出单一聚集倾向分数，将成核与延伸视为同一过程，且通常基于序列特征或简化物理模型。SKALE 2.0 的本质差异在于三点：（1）引入显式相位条件化，分别预测成核和延伸的突变效应；（2）基于三维拓扑结构而非序列；（3）通过几何深度学习从数据中学习相位特异性结构规律，而非依赖手工设计的物理势函数。

Q2：为什么蛋白质语言模型（如 ESM-2）和 AlphaFold 衍生特征都无法完成相位分辨预测？

A：根据论文消融实验结果，蛋白质语言模型依赖序列共进化信息，天然缺乏对三维几何拓扑的感知；AlphaFold 衍生特征虽包含结构信息，但未引入相位条件化，导致成核与延伸信号在表示层混叠。这两类模型均无法同时满足相位依赖性突变调控和相位可分性两项评估标准。这表明显式相位条件化是不可替代的设计要素。

Q3：相位切换突变（Phase-Switch Mutations）有何实际意义？

A：相位切换突变是该框架最具洞察力的预测类别之一。它揭示了成核与延伸通路的相对独立性：某个突变可能同时抑制成核但加速延伸（或反之），用单一分数评估会相互抵消，给出误导性结论。在治疗设计层面，相位切换突变的存在说明可以设计仅针对成核的抑制剂，在不干扰延伸相关生物学功能的前提下阻断聚集起始。

Q4：SKALE 2.0 的预测是否有实验验证，可信度如何？

A：是的。研究使用重组 SOD1 蛋白体外实验对预测结果进行了实验验证，成功验证了三类预测突变（抑制子、增强子、相位切换）的聚集动力学表型。验证实验直接测量了聚集动力学曲线，并分别提取了对应成核速率和延伸速率的参数，与模型的相位分辨预测评分进行了匹配对比。

Q5：该框架目前支持哪些蛋白质，是否可以扩展到其他聚集相关疾病蛋白？

A：论文中明确测试的蛋白质为 SOD1（ALS）、TDP-43（ALS/FTD）、MAPT（Tau，阿尔茨海默病/FTD）和 PRNP（朊蛋白病）四种神经退行性疾病核心蛋白。从框架设计原则来看，由于 SKALE 2.0 学习的是相位特异性三维几何特征而非蛋白质特异性序列模式，其潜在空间显示出跨蛋白质的保守转变轨迹，提示该框架具备扩展至其他聚集相关蛋白（如 α-突触核蛋白、Huntingtin 等 [待验证]）的理论基础，但具体扩展效果需进一步实验验证。

总结¶

SKALE 2.0 代表了蛋白质聚集计算建模的一次范式转变：从单一静态风险评分迈向相位分辨的动态几何分析。其核心贡献可归纳为以下几点：

方法论创新：首次将显式相位条件化与几何深度学习结合，在成核与延伸两个维度独立解析突变效应。
机制揭示：阐明了成核优先由埋藏疏水性扰动驱动、延伸由溶剂可及界面塑造的相位特异性结构几何规律，解答了致病变异"折叠正常却致聚集"的结构机制。
实验验证：重组 SOD1 实验成功验证了抑制子、增强子和相位切换三类预测突变，证实成核与延伸可被独立调控。
设计应用：提供了约束感知的聚集抑制剂设计框架，为神经退行性疾病的蛋白质工程干预策略开辟了新路径。

该框架为连接原子尺度拓扑结构与相位特异性组装动力学提供了强有力的计算工具，对理解和干预神经退行性疾病中的蛋白质异常聚集具有重要价值。