MIT开发Pichia-CLM模型学习酵母DNA「语言」,外源蛋白产量最高可提高至3倍
来自麻省理工学院的研究团队提出一种基于深度学习的语言模型 Pichia-CLM,用于在工业相关宿主毕赤酵母中进行密码子优化,以提升重组蛋白的产量。研究人员在 6 类不同复杂度的蛋白上对 Pichia-CLM 进行了实验验证,并且与 4 种商业化密码子优化工具相比,始终观察到更高的表达产量。
在生物制药与工业生物技术领域,重组蛋白的高效表达始终是决定生产成本与工艺可行性的核心因素。从单克隆抗体、疫苗抗原到工业酶制剂,表达水平的微小提升,都可能带来显著的经济价值。
在众多表达系统中,毕赤酵母(Komagataella phaffii)凭借其高密度发酵能力、成熟的分泌表达体系以及良好的蛋白加工能力,已成为工业生产的重要宿主之一。然而,一个长期困扰行业的问题在于:即便氨基酸序列完全一致,仅仅改变编码 DNA 中的「同义密码子」,就可能导致表达量出现数量级差异。
这一现象源于密码子使用偏好性(Codon Usage Bias, CUB)——在许多生物体中,某些同义密码子会被优先使用。对同义密码子的选择会通过影响转录、mRNA 稳定性、翻译、蛋白质折叠、翻译后修饰(PTMs)以及溶解性,从而影响蛋白产量。因此,「密码子优化」成为外源蛋白表达的关键步骤。
目前业界已经开发了多种基于宿主 CUB 的密码子优化工具和方法,但这些方法仍可能无法稳定地产生高表达构建体。近年来,随着人工智能尤其是序列建模技术的发展,研究者开始将基因序列视为一种「语言」,尝试通过类似自然语言处理的方法来学习其中的隐含规则。
在这一背景下,来自麻省理工学院的研究团队提出一种基于深度学习的语言模型 Pichia-CLM,用于在工业相关宿主毕赤酵母中进行密码子优化,以提升重组蛋白的产量。不同于依赖 CUB 指标的传统方法(通常只提供全局评分并忽略序列上下文),Pichia-CLM 利用宿主基因组数据,无偏地学习氨基酸到密码子的映射关系。研究人员在 6 类不同复杂度的蛋白上对 Pichia-CLM 进行了实验验证,并且与 4 种商业化密码子优化工具相比,始终观察到更高的表达产量。
相关研究成果以「Pichia-CLM: A language model–based codon optimization pipeline for Komagataella phaffii」为题,已刊登 PNAS。
研究亮点:
* Pichia-CLM 利用宿主基因组数据无偏地学习氨基酸到密码子的映射关系,不仅考虑宿主偏好,还能捕捉位置依赖性和长程上下文关系
* 在 6 类不同复杂度的蛋白上对 Pichia-CLM 进行了实验验证,始终观察到更高的表达产量
* 模型学习到的氨基酸和密码子嵌入能够根据理化性质进行分组,说明语言模型能够捕捉具有物理意义的规律
论文地址:https://www.pnas.org/doi/10.1073/pnas.2522052123
构建以毕赤酵母为中心的大规模序列数据集
与传统依赖经验规则的方法不同,Pichia-CLM 的核心思想是直接从宿主基因组中学习编码规律。为此,研究团队构建了一个以毕赤酵母为中心的大规模序列数据集。
为了训练 Pichia-CLM,研究人员从 NCBI 收集了两种毕赤酵母变体的氨基酸序列和编码序列数据:CBS7435 和 GS115。此外,还补充了其实验室此前完成基因组测序与注释的数据,包括 GS115、K. phaffii(NRRL Y11430)以及 K. pastoris——最终共使用约 27,000 对氨基酸–编码序列数据。
在数据处理过程中,研究人员对氨基酸和密码子进行了标记化(tokenization),并引入起始(<START>)、终止(<END>)和填充(<PAD>)标记,使模型能够处理不同长度的序列并支持批量训练。同时,数据集被划分为训练集与测试集,其中约 20% 用于评估模型在未见数据上的预测能力。
值得注意的是,这种数据构建方式并未人为引入任何「优化目标」,而是完全基于天然基因组数据。这意味着模型学习到的是宿主真实的表达偏好,而非人为设定的近似规则,为后续性能提升奠定了基础。
Pichia-CLM 采用基于 GRU 的编码器–解码器架构
模型架构
Pichia-CLM 采用基于门控循环单元(GRU)的编码器–解码器架构,GRU 是一种改进型循环神经网络结构,旨在捕捉序列数据中的长程和短程依赖关系。通过门控机制调节信息流动,GRU 有效缓解了传统 RNN 中常见的梯度消失问题。此外,GRU 在性能上可与长短期记忆网络(LSTM)相媲美,但所需参数更少、计算资源消耗更低,因此在许多序列建模任务中更具效率优势。
相比另一类主流架构 Transformer,GRU 在中小规模数据集上具有更高的计算效率与更低的资源消耗。研究表明,在约 2.7 万条序列规模的数据条件下,引入 Transformer 反而会增加不必要的复杂度,而 GRU 能够在性能与效率之间取得更优平衡。
模型以蛋白质的氨基酸序列作为输入,并根据从宿主氨基酸序列和编码序列中学习到的模式生成相应的 DNA 序列,整体架构如下图所示:
Pichia-CLM 的工作流程及示意图
模型训练过程
在训练过程中,研究人员使用验证集(训练集的 20%)进行早停(early stopping)以优化参数。同时,以验证集损失(稀疏分类交叉熵)最小化为目标进行超参数选择。超参数优化采用贝叶斯优化这一全局优化策略,并结合研究人员内部开发的代码实现。
具体而言,模型中涉及以下超参数:
* 氨基酸嵌入维度
* 密码子嵌入维度
* 编码器层的单元数
* 解码器中密码子全连接层的大小
* 解码器中氨基酸全连接层的大小
在模型训练阶段,解码器输入为真实的编码序列(即真实密码子)。而在预测阶段,模型使用前一位置预测得到的密码子作为下一位置的输入,从而实现完全自回归预测。当遇到终止密码子时,序列预测终止。
在完成架构选择并在测试集上验证预测能力后,研究人员使用完整数据集重新训练最终模型,并继续采用早停策略以避免过拟合,该最终模型用于设计外源蛋白的编码序列。
Pichia-CLM 能够生成高产蛋白的构建体
在实验验证部分,研究团队选取了 6 种具有不同复杂度的蛋白进行测试,包括:
* 人生长激素(hGH)
* 人粒细胞集落刺激因子(hGCSF)
* VHH 纳米抗体 3B2(34)
* 工程化 SARS-CoV-2 RBD 亚基变体(RBD)(35)
* 人血清白蛋白(HSA)
* IgG1 单克隆抗体曲妥珠单抗(Trast)
Pichia-CLM 在毕赤酵母中提升蛋白分泌的性能
首先,研究人员选择了 3 种来源于人类、具有不同大小和复杂度的蛋白:hGH、hGCSF 和 HSA,比较了使用 Pichia-CLM 生成的基因构建体与其天然编码序列在蛋白分泌产量(滴度)上的差异。总体而言,对于 hGH 和 hGCSF 等蛋白,产量提升约为 25%;而对于 HSA,则观察到约 3 倍的显著提升。
随后,研究人员将 Pichia-CLM 与 4 种商业密码子优化工具进行了比较:Azenta、IDT、GenScript 和 Thermo Fisher(Thermo),针对前述 6 种蛋白进行了评估,并采用两个指标:
* BestTiter:某方法获得最高滴度的蛋白数量
* Aggregated Score(综合得分):不同蛋白相对滴度(归一化至最大值)的总和
总体来看,Pichia-CLM 在这两个指标上均优于商业算法(如下图 C);它在 6 种蛋白中有 5 种取得最高滴度,仅在 HSA 上因滴度略低而导致综合得分略微下降(约 0.2)(如下图D)。
(C) 基于两个指标对不同密码子优化算法进行排名;
(D) 不同分子中,Pichia-CLM 与各商业算法在密码子优化效率上的比较
遗传序列特性的评估
在验证了 Pichia-CLM 在外源蛋白生产方面的性能之后,研究人员进一步分析了不同设计构建体的遗传序列特性。包括其他已报道的蛋白语言模型在内,密码子优化通常依赖一种或多种密码子使用偏好性(CUB)指标进行设计或评估,因此,其利用 6 种测试蛋白的数据评估了这些 CUB 指标与蛋白产量之间的相关性。
结果表明,这些指标均未能在不同蛋白之间与产量表现出一致且较高的相关性。例如,在 HSA 的情况下(如下图 A),与密码子波动性和密码子频率分布(CFD)的最大正相关仅为 0.43,而与密码子对评分(CPS)的最大负相关也仅为 0.25。
在实验测试蛋白中,Pichia-CLM 与商业算法设计序列中预测的负向顺式调控元件数量比较
基于整条序列计算的全局 CUB 指标在表征与外源蛋白生产相关的特征方面存在明显局限性。进而说明需要新的评价指标来评估密码子优化工具,并结合多样化蛋白的严格实验验证——这一结果直接挑战了传统密码子优化的理论基础。
序列特征评估
研究人员还评估了不同密码子优化构建体中负向顺式调控元件的存在情况,这些元件可能干扰宿主的调控机制,因此在外源 DNA 序列中应尽量避免。
在 6 种测试蛋白中,采用 Pichia-CLM 设计的构建体均未检测到负向顺式调控元件;相比之下,GenScript 在 6 种蛋白中有 3 种包含 1 个负向顺式调控元件;Azenta 和 IDT 在至少一种蛋白中产生了含有 3 至 4 个此类元件的序列,如下图 B:
在 52 种生物技术相关基准蛋白中,Pichia-CLM 与 GenScript 优化序列中负向顺式调控元件分布的比较
研究人员也分析了 Pichia-CLM 在 52 种生物技术相关蛋白中的表现,结果显示:75% 的蛋白序列完全不含负向顺式调控元件,剩余 25% 最多仅含 2 个此类元件。相比之下,表现最好的商业算法 GenScript 在约 15% 的蛋白中仍产生了含 3 至 6 个负向顺式调控元件的构建体,如下图 C:
基于预测 RNA 结构自由能,对不同构建体的 RNA 稳定性进行比较(Pichia-CLM 与商业算法)
综上,这些结果表明,Pichia-CLM 不仅能够生成高产蛋白的构建体,还能够学习关键的遗传序列特征,在多种因素之间实现平衡,从而设计出适用于宿主表达的稳健编码序列。
AI 加速蛋白质生产工业化进程
在生物医药产业中,提高蛋白质的生产效率始终是决定研发转化与商业化成败的关键因素。从单克隆抗体到重组疫苗,再到各类融合蛋白与酶制剂,其市场需求持续增长,对产量、稳定性与一致性的要求也不断提高。
围绕这一目标,业界已经形成了多层次的优化体系:在宿主层面,除传统的大肠杆菌与酿酒酵母外,毕赤酵母与哺乳动物细胞因其更优的翻译后修饰能力与表达效率,已成为主流生产平台;在分子设计层面,除了密码子优化,还包括启动子强度调控、信号肽筛选、mRNA 结构工程以及蛋白折叠与分泌路径优化;而在工艺层面,高密度发酵、补料策略优化以及生物反应器参数控制,同样对最终产量起到决定性作用。
在这一体系之外,一类「去细胞化」的技术路径正在迅速崛起,即无细胞蛋白质合成(Cell-Free Protein Synthesis, CFPS)。该技术绕过细胞生长过程,直接利用细胞裂解液中的转录翻译系统,实现蛋白的快速表达,已广泛应用于抗体、酶乃至抗体偶联药物的开发与生产。然而,CFPS 体系本身是一个高度复杂的多变量系统,涉及 DNA 模板、酶体系、能量供体、氨基酸与离子环境等数十种组分,其组合空间极其庞大,传统依赖经验的优化方式往往难以在成本与产量之间取得理想平衡。
在这一背景下,人工智能驱动的自动化优化展现出颠覆性潜力。近日,OpenAI 携手合成生物学头部企业 Ginkgo Bioworks 发布重磅研究成果。基于 GPT-5 大语言模型构建的「闭环自动化系统」,成功实现无细胞蛋白质合成(CFPS)技术的双重优化——将该技术的总生产成本降低 40%,试剂成本大幅削减 57%,同时蛋白质合成效价提升 27%。
未来,类似思路也会向更广泛的生物制造场景扩展。从细胞工厂的代谢路径优化,到发酵过程的实时控制,再到表达构建体的智能设计,人工智能正逐步嵌入蛋白药物生产的各个环节。
参考文献:
1.https://www.pnas.org/doi/10.1073/pnas.2522052123
2.https://phys.org/news/2026-02-ai-yeast-dna-language-boost.html#google_vignette
3.https://mp.weixin.qq.com/s/Qkl6j9HcFB7W_Y5Xh-9BCw
本文来自微信公众号“HyperAI超神经”,作者:梅菜,36氪经授权发布。















