MIT提出首个端到端动力学蛋白质生成模型VibeGen,实现序列与振动的双向映射

超神经HyperAI·2026年03月30日 14:38
基于语言扩散模型的智能体端到端从头蛋白质设计

MIT 与卡内基梅隆大学研究团队提出的蛋白质生成智能体模型 VibeGen,通过将序列生成与振动动力学预测相结合,实现了从头蛋白质设计。研究结果表明,该生成式智能体所设计的蛋白质,不仅能够折叠为稳定且新颖的结构,还可在主链层面上重现目标振动振幅的分布特征。

蛋白质是生命体系中核心的功能分子,但其功能并非由静态结构单独决定,而源于持续变化的构象动态。在复杂能量景观的框架下,蛋白质在生理条件下于飞秒至毫秒的多尺度运动中维持动态平衡,使之成为真正的分子机器。

正因如此,蛋白质动力学异常与多种疾病密切相关。例如,肿瘤抑制蛋白 p53 依赖构象可塑性发挥作用,致癌突变会削弱这一能力;CFTR 突变则通过扰乱门控动力学引发囊性纤维化。这些事实表明,蛋白质的「运动」本身就是功能的重要决定因素。因此,从动力学出发理解并设计蛋白质,正成为结构生物学与生物工程的前沿方向。

过去几十年中,研究者发展了核磁共振、氢氘交换质谱、冷冻电镜等实验手段,以及分子动力学模拟、简正振动模(vibrational normal modes)分析等计算方法来刻画蛋白质动态。但这些方法要么流程复杂、难以规模化,要么计算成本高、时间尺度受限,难以支撑大规模研究。

近年来,深度学习与生成式 AI 为蛋白质研究带来新的可能。以 AlphaFold2 为代表的模型已实现高精度结构预测,也有方法可预测二级结构、结合位点乃至振动特征。然而,现有方法大多仍停留在「结构或单一属性」层面,缺乏对本征动力学的系统建模。在设计领域,RFdiffusion、AlphaFold3 等框架仍将结构视为近似刚体,尚未真正引入动力学约束。因此,如何建立「序列-结构-动力学-功能」的统一映射,并实现基于动力学的可控设计,仍是核心难题。

近期,MIT 与卡内基梅隆大学的联合研究团队提出了蛋白质生成智能体 VibeGen,通过将序列生成与振动动力学预测相结合,实现了从头蛋白质设计。研究结果表明,该生成式智能体所设计的蛋白质不仅能够折叠为稳定且新颖的结构,还可在主链层面上重现目标振动振幅的分布特征。

相关研究成果以「VibeGen: Agentic end-to-end de novo protein design for tailored dynamics using a language diffusion model」为题,已发表于 Matter。

论文地址:https://www.cell.com/matter/abstract/S2590-2385(26)00069-X

基于低频简正振动模的蛋白质动力学数据库

为构建数据库,研究人员从 2024 年 1 月更新的蛋白质数据库(PDB)中筛选出长度不超过 126 个氨基酸的蛋白质单链。通过 VMD、MMTSB 和 SCWRL4 等工具对结构进行清洗与补全,随后基于 CHARMM 力场进行能量最小化,并利用块体简正振动模方法计算模态信息。去除代表整体平动与转动的前6个刚体模后,选取最低频的非平凡模用于后续分析。

在此基础上,该研究进一步提取主链各残基 Cα 原子的位移模长,构建简正振动模形状向量。结果显示,振动位移呈明显异质分布:链末端及结构松散区域振幅较大,而 α 螺旋和 β 折叠等致密区域振动受限,转角与卷曲区域则因柔性较强呈现局部峰值。为消除长度差异的影响,研究对向量进行了归一化处理,使其成为与坐标系无关的动力学描述符。

最终,研究人员构建了包含 12,924 条蛋白质单链的数据集。分析显示,低频振动模式具有显著多样性,振幅峰值多集中于链末端。该数据集按 9:1 的比例划分为训练集与测试集,用于后续生成模型的训练与评估。

蛋白质的正常模式分析及低频模式形状数据集整理

VibeGen:基于语言扩散模型的端到端从头蛋白质设计

该研究面临的核心挑战在于:简正振动模形状由蛋白质的复杂三维结构与弹性特性共同决定,序列与动力学之间缺乏直接的映射关系;同时,单一模态信息存在高度简并性,不同序列可能对应相似的动力学特征,这使得逆设计问题尤为困难。

为应对上述挑战,该研究首先通过简正振动模分析与全原子分子动力学模拟,从蛋白质数据库(PDB)中提取大量蛋白质的关键动力学特征。在此基础上,研究人员构建了两个协同工作的蛋白质语言扩散模型:蛋白质设计模块(PD)与预测模块(PP),分别负责序列与简正振动模空间之间的正向预测与逆向设计。两个模块结构相似,均基于预训练蛋白质语言模型(pLM)与扩散模型的组合。

设计模块的任务是根据目标动力学特性生成序列。在去噪过程中,扩散模型通过多个通道将动力学条件信息融入,并在隐空间中逐步生成符合目标特性的序列。预测模块结构对称,根据输入序列反向推断简正振动模形状,利用预训练语言模型输出的多种序列表征来优化预测结果。

两个模块独立训练,在部署阶段组成「生成—评估—筛选」的闭环协同系统:设计模块先生成候选序列,预测模块实时评估其动力学表现,研究者可根据准确性或多样性的需求筛选结果,必要时重复迭代,直至获得满意序列。

基于动态特征开发端到端蛋白质生成模型的工作流程

模型性能在测试集上进行了验证。针对 L 型、U 型、W 型等多种典型的简正振动模形状设计目标,模型生成的蛋白质经实际简正振动模分析验证,其振动形状与设计目标高度吻合。皮尔逊相关系数与相对 L2 误差等定量指标显示,该方法能在复杂动力学约束下实现高精度设计。

从结构角度看,生成蛋白质呈现出清晰的动力学对应关系:振动较强的区域多为无规卷曲或柔性片段,而振动受限的区域则倾向于形成 α 螺旋或 β 折叠等稳定结构,说明模型已有效捕捉到结构与动力学之间的内在关联。

在模型实现层面,设计模块与预测模块均采用 ESM-2 系列中 1.5 亿参数的中等规模预训练模型作为 pLM,以平衡计算效率与模型性能。扩散模型通过 U 型网络的多个通道将条件信息整合至去噪过程,采用 Adam 优化器独立训练。

精度与新颖性的双重突破

为评估模型性能,研究从多个维度开展了实验分析。多样性分析显示,针对同一动力学目标,模型能够生成结构不同但功能一致的多种设计方案。以 U 型和 L 型简正振动模为例,设计得到的蛋白质均呈现「致密核心+开放末端」的布局:末端为无规卷曲结构,对应高振幅区域;核心则可由 α-螺旋束或螺旋-折叠混合结构等多种方式实现,对应低振幅区域。这种多样性主要来源于低振动区域在结构选择上的自由度,模型成功捕捉并利用了这种「多解性」。

基于 U 型和 L 型条件生成的多种蛋白质序列

预测模块的有效性通过对比实验验证。如下图所示,从同一组候选序列中选取预测最优与预测最差的两组,前者的实际设计精度显著高于后者(皮尔逊相关系数中位数 0.53 vs 0.31),而预测模块对两组的预测精度保持稳定。这说明,在设计过程中引入预测模块,能够有效筛选高质量序列,减少对昂贵物理验证的依赖。

比较由蛋白质预测模块所确定的最优设计组和最差设计组

整体性能统计基于 1,293 个测试案例。如下图所示,实测简正振动模形状与设计目标的相关系数中位数为 0.53,相对 L2 误差中位数为 0.57,反映了残基层级高精度设计的固有难度;经低通滤波保留整体形状后,相关系数中位数提升至 0.72,误差中位数降至 0.37,表明模型在捕捉振动整体轮廓方面表现尤为出色——这一特征对于蛋白质的大规模构象动力学具有最重要的生物学意义。

新颖性方面,BLAST 最高序列一致性呈双峰分布,主峰对应从头设计序列,说明模型更倾向于生成新颖的序列,有效拓展了潜在的蛋白质结构与动力学解决方案库。

基于独立测试集中 1293 个蛋白质测试蛋白质生成模型

结构与动力学关联在多组实验中一致显现:α-螺旋和 β-折叠等致密结构多分布于低振幅区域,而高振幅区域多为环区或末端卷曲。模型成功捕捉了这一物理规律,能够借助二级结构元件调控局部柔性,展现出对结构-动力学关系的理解能力。

总体而言,该模型在动力学约束下的蛋白质设计中,实现了准确性、多样性与新颖性的较好平衡,为后续更复杂的功能设计奠定了基础。

智能体蛋白质生成与简正振动模逆设计的结合

智能体蛋白质生成与基于简正振动模形状的逆设计研究,正成为蛋白质工程领域的前沿热点,推动着学术探索与产业创新的双向发力。

在学术界,多个高校团队围绕这一方向持续深耕,取得了一系列突破性成果。部分团队通过优化智能体协同框架,将简正振动模分析与更先进的蛋白质语言扩散模型相结合,有效缓解了逆设计中的简并性问题。相关工作进一步验证了简正振动模形状与蛋白质二级结构、动力学特性之间的内在关联,为从头设计特定功能蛋白质提供了更坚实的理论支撑与技术路径。

另有团队聚焦模型轻量化与泛化性,优化了预训练蛋白质语言模型的参数规模与训练策略,开发出更易推广的小型化模型,并将简正振动模逆设计的应用拓展至酶的催化位点设计、蛋白质结合剂优化等具体领域,为后续产业转化奠定了良好基础。

此外,谷歌 DeepMind 推出的 AlphaProteo,作为首个用于设计新型高强度蛋白质粘合剂的人工智能工具,能为多种目标蛋白生成新的蛋白结合体,包括与癌症和糖尿病并发症相关的血管内皮生长因子A,在测试中实现了更高的实验成功率,其结合亲和力是现有最佳方法的 3 到 300 倍,有望加速抗癌、抗病毒等药物的研发,也为生物传感器开发、作物抗虫性提升等领域提供了新思路。

另有一些企业聚焦药物研发痛点,利用简正振动模形状逆设计技术,针对特定疾病靶点设计蛋白质药物,缩短研发周期、降低成本,推动蛋白质药物向更精准、高效的方向发展。

当前,学术界对设计精度与模型泛化能力的持续优化,与产业界对落地效率与应用场景的不断拓展,正共同推动蛋白质设计技术朝着更精准、更高效、更多元的方向迈进。未来,随着技术不断成熟,基于智能体与简正振动模分析的蛋白质设计方法,有望在医药健康、工业生产、生物制造等领域实现更广泛的应用,带来新的突破。

本文来自微信公众号“HyperAI超神经”,作者:田小幺,36氪经授权发布。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

快手电商启源计划开启分层运营与全域增长新时代

3小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业