Codebase of paper "Structure Language Models for Protein Conformation Generation" (ICLR'25)

摘要: 本文提出了一种名为"结构语言模型"(Structure Language Models, SLM)的SE(3)不变学习框架,用于高效生成蛋白质构象。蛋白质在生理条件下会采取多种构象,准确生成这些构象对于理解蛋白质功能和药物设计至关重要。SLM的核心思路是利用离散变分自编码器(discrete VAE)将蛋白质三维结构编码为紧凑的离散潜在空间表示,随后通过条件语言建模来捕获特定序列的构象分布。在多种语言建模方法中,作者提出了ESMDiff方法,即在ESM3蛋白质语言模型基础上结合掩码扩散(mask diffusion)微调策略,使其成为SLM框架中性能最优的离散扩散实现。该方法的优势在于将蛋白质结构生成问题转化为语言建模问题,充分利用了预训练蛋白质语言模型的强大表征能力。此外,作者开源了完整的代码库和模型权重,提供了一套高效的微调流程,便于将基础蛋白质语言模型适配到构象生成等特定下游任务。该工作发表于ICLR 2025会议,基于PyTorch和Lightning框架实现,采用Hydra进行配置管理。