MIT提出首个端到端动力学蛋白质生成模型VibeGen，实现序列与振动的双向映射

超神经HyperAI·2026年03月30日 14:38

基于语言扩散模型的智能体端到端从头蛋白质设计

MIT 与卡内基梅隆大学研究团队提出的蛋白质生成智能体模型 VibeGen，通过将序列生成与振动动力学预测相结合，实现了从头蛋白质设计。研究结果表明，该生成式智能体所设计的蛋白质，不仅能够折叠为稳定且新颖的结构，还可在主链层面上重现目标振动振幅的分布特征。

蛋白质是生命体系中核心的功能分子，但其功能并非由静态结构单独决定，而源于持续变化的构象动态。在复杂能量景观的框架下，蛋白质在生理条件下于飞秒至毫秒的多尺度运动中维持动态平衡，使之成为真正的分子机器。

正因如此，蛋白质动力学异常与多种疾病密切相关。例如，肿瘤抑制蛋白 p53 依赖构象可塑性发挥作用，致癌突变会削弱这一能力；CFTR 突变则通过扰乱门控动力学引发囊性纤维化。这些事实表明，蛋白质的「运动」本身就是功能的重要决定因素。因此，从动力学出发理解并设计蛋白质，正成为结构生物学与生物工程的前沿方向。

过去几十年中，研究者发展了核磁共振、氢氘交换质谱、冷冻电镜等实验手段，以及分子动力学模拟、简正振动模（vibrational normal modes）分析等计算方法来刻画蛋白质动态。但这些方法要么流程复杂、难以规模化，要么计算成本高、时间尺度受限，难以支撑大规模研究。

近年来，深度学习与生成式 AI 为蛋白质研究带来新的可能。以 AlphaFold2 为代表的模型已实现高精度结构预测，也有方法可预测二级结构、结合位点乃至振动特征。然而，现有方法大多仍停留在「结构或单一属性」层面，缺乏对本征动力学的系统建模。在设计领域，RFdiffusion、AlphaFold3 等框架仍将结构视为近似刚体，尚未真正引入动力学约束。因此，如何建立「序列-结构-动力学-功能」的统一映射，并实现基于动力学的可控设计，仍是核心难题。

近期，MIT 与卡内基梅隆大学的联合研究团队提出了蛋白质生成智能体 VibeGen，通过将序列生成与振动动力学预测相结合，实现了从头蛋白质设计。研究结果表明，该生成式智能体所设计的蛋白质不仅能够折叠为稳定且新颖的结构，还可在主链层面上重现目标振动振幅的分布特征。

相关研究成果以「VibeGen: Agentic end-to-end de novo protein design for tailored dynamics using a language diffusion model」为题，已发表于 Matter。

论文地址：https://www.cell.com/matter/abstract/S2590-2385(26)00069-X

基于低频简正振动模的蛋白质动力学数据库

为构建数据库，研究人员从 2024 年 1 月更新的蛋白质数据库（PDB）中筛选出长度不超过 126 个氨基酸的蛋白质单链。通过 VMD、MMTSB 和 SCWRL4 等工具对结构进行清洗与补全，随后基于 CHARMM 力场进行能量最小化，并利用块体简正振动模方法计算模态信息。去除代表整体平动与转动的前6个刚体模后，选取最低频的非平凡模用于后续分析。

在此基础上，该研究进一步提取主链各残基 Cα 原子的位移模长，构建简正振动模形状向量。结果显示，振动位移呈明显异质分布：链末端及结构松散区域振幅较大，而 α 螺旋和 β 折叠等致密区域振动受限，转角与卷曲区域则因柔性较强呈现局部峰值。为消除长度差异的影响，研究对向量进行了归一化处理，使其成为与坐标系无关的动力学描述符。

最终，研究人员构建了包含 12,924 条蛋白质单链的数据集。分析显示，低频振动模式具有显著多样性，振幅峰值多集中于链末端。该数据集按 9:1 的比例划分为训练集与测试集，用于后续生成模型的训练与评估。

蛋白质的正常模式分析及低频模式形状数据集整理

VibeGen：基于语言扩散模型的端到端从头蛋白质设计

该研究面临的核心挑战在于：简正振动模形状由蛋白质的复杂三维结构与弹性特性共同决定，序列与动力学之间缺乏直接的映射关系；同时，单一模态信息存在高度简并性，不同序列可能对应相似的动力学特征，这使得逆设计问题尤为困难。

为应对上述挑战，该研究首先通过简正振动模分析与全原子分子动力学模拟，从蛋白质数据库（PDB）中提取大量蛋白质的关键动力学特征。在此基础上，研究人员构建了两个协同工作的蛋白质语言扩散模型：蛋白质设计模块（PD）与预测模块（PP），分别负责序列与简正振动模空间之间的正向预测与逆向设计。两个模块结构相似，均基于预训练蛋白质语言模型（pLM）与扩散模型的组合。

设计模块的任务是根据目标动力学特性生成序列。在去噪过程中，扩散模型通过多个通道将动力学条件信息融入，并在隐空间中逐步生成符合目标特性的序列。预测模块结构对称，根据输入序列反向推断简正振动模形状，利用预训练语言模型输出的多种序列表征来优化预测结果。

两个模块独立训练，在部署阶段组成「生成—评估—筛选」的闭环协同系统：设计模块先生成候选序列，预测模块实时评估其动力学表现，研究者可根据准确性或多样性的需求筛选结果，必要时重复迭代，直至获得满意序列。

基于动态特征开发端到端蛋白质生成模型的工作流程

模型性能在测试集上进行了验证。针对 L 型、U 型、W 型等多种典型的简正振动模形状设计目标，模型生成的蛋白质经实际简正振动模分析验证，其振动形状与设计目标高度吻合。皮尔逊相关系数与相对 L2 误差等定量指标显示，该方法能在复杂动力学约束下实现高精度设计。

从结构角度看，生成蛋白质呈现出清晰的动力学对应关系：振动较强的区域多为无规卷曲或柔性片段，而振动受限的区域则倾向于形成 α 螺旋或 β 折叠等稳定结构，说明模型已有效捕捉到结构与动力学之间的内在关联。

在模型实现层面，设计模块与预测模块均采用 ESM-2 系列中 1.5 亿参数的中等规模预训练模型作为 pLM，以平衡计算效率与模型性能。扩散模型通过 U 型网络的多个通道将条件信息整合至去噪过程，采用 Adam 优化器独立训练。

精度与新颖性的双重突破

为评估模型性能，研究从多个维度开展了实验分析。多样性分析显示，针对同一动力学目标，模型能够生成结构不同但功能一致的多种设计方案。以 U 型和 L 型简正振动模为例，设计得到的蛋白质均呈现「致密核心+开放末端」的布局：末端为无规卷曲结构，对应高振幅区域；核心则可由 α-螺旋束或螺旋-折叠混合结构等多种方式实现，对应低振幅区域。这种多样性主要来源于低振动区域在结构选择上的自由度，模型成功捕捉并利用了这种「多解性」。

基于 U 型和 L 型条件生成的多种蛋白质序列

预测模块的有效性通过对比实验验证。如下图所示，从同一组候选序列中选取预测最优与预测最差的两组，前者的实际设计精度显著高于后者（皮尔逊相关系数中位数 0.53 vs 0.31），而预测模块对两组的预测精度保持稳定。这说明，在设计过程中引入预测模块，能够有效筛选高质量序列，减少对昂贵物理验证的依赖。

比较由蛋白质预测模块所确定的最优设计组和最差设计组

整体性能统计基于 1,293 个测试案例。如下图所示，实测简正振动模形状与设计目标的相关系数中位数为 0.53，相对 L2 误差中位数为 0.57，反映了残基层级高精度设计的固有难度；经低通滤波保留整体形状后，相关系数中位数提升至 0.72，误差中位数降至 0.37，表明模型在捕捉振动整体轮廓方面表现尤为出色——这一特征对于蛋白质的大规模构象动力学具有最重要的生物学意义。

新颖性方面，BLAST 最高序列一致性呈双峰分布，主峰对应从头设计序列，说明模型更倾向于生成新颖的序列，有效拓展了潜在的蛋白质结构与动力学解决方案库。

基于独立测试集中 1293 个蛋白质测试蛋白质生成模型

结构与动力学关联在多组实验中一致显现：α-螺旋和 β-折叠等致密结构多分布于低振幅区域，而高振幅区域多为环区或末端卷曲。模型成功捕捉了这一物理规律，能够借助二级结构元件调控局部柔性，展现出对结构-动力学关系的理解能力。

总体而言，该模型在动力学约束下的蛋白质设计中，实现了准确性、多样性与新颖性的较好平衡，为后续更复杂的功能设计奠定了基础。

智能体蛋白质生成与简正振动模逆设计的结合

智能体蛋白质生成与基于简正振动模形状的逆设计研究，正成为蛋白质工程领域的前沿热点，推动着学术探索与产业创新的双向发力。

在学术界，多个高校团队围绕这一方向持续深耕，取得了一系列突破性成果。部分团队通过优化智能体协同框架，将简正振动模分析与更先进的蛋白质语言扩散模型相结合，有效缓解了逆设计中的简并性问题。相关工作进一步验证了简正振动模形状与蛋白质二级结构、动力学特性之间的内在关联，为从头设计特定功能蛋白质提供了更坚实的理论支撑与技术路径。

另有团队聚焦模型轻量化与泛化性，优化了预训练蛋白质语言模型的参数规模与训练策略，开发出更易推广的小型化模型，并将简正振动模逆设计的应用拓展至酶的催化位点设计、蛋白质结合剂优化等具体领域，为后续产业转化奠定了良好基础。

此外，谷歌 DeepMind 推出的 AlphaProteo，作为首个用于设计新型高强度蛋白质粘合剂的人工智能工具，能为多种目标蛋白生成新的蛋白结合体，包括与癌症和糖尿病并发症相关的血管内皮生长因子A，在测试中实现了更高的实验成功率，其结合亲和力是现有最佳方法的 3 到 300 倍，有望加速抗癌、抗病毒等药物的研发，也为生物传感器开发、作物抗虫性提升等领域提供了新思路。

另有一些企业聚焦药物研发痛点，利用简正振动模形状逆设计技术，针对特定疾病靶点设计蛋白质药物，缩短研发周期、降低成本，推动蛋白质药物向更精准、高效的方向发展。

当前，学术界对设计精度与模型泛化能力的持续优化，与产业界对落地效率与应用场景的不断拓展，正共同推动蛋白质设计技术朝着更精准、更高效、更多元的方向迈进。未来，随着技术不断成熟，基于智能体与简正振动模分析的蛋白质设计方法，有望在医药健康、工业生产、生物制造等领域实现更广泛的应用，带来新的突破。

本文来自微信公众号“HyperAI超神经”，作者：田小幺，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。