BigBang-Proton: 自回归基座模型统一语言、科学和物质世界
GPT-5,DeepSeek 这些大语言模型能不能直接执行 Alphafold 这样的专业科学任务?OpenAI 的 Sam Altman 在多个场合提到,ChatGPT 的主要目标是建造基于语言的通用推理机器 (General Reasoning Machine), 再使用推理机器来调用专业科学模型如 Alphafold 解决特定科学问题,所以无法也没必要用 ChatGPT 直接执行 Alphafold 的任务。
近日,专注于研发物质世界基座模型的公司超越对称(上海)技术有限公司(超对称)发布了新版基座模型 BigBang-Proton,成功实现多个真实世界的专业学科问题与 LLM 的统一预训练和推理,挑战了 Sam Altman 和主流的 AGI 技术路线。
BigBang-Proton 的结果展示,不仅 Alphafold,AlphaGenome 这样的专业生物问题,横跨所有物质尺度从微观粒子夸克、材料晶格到 DNA 蛋白质到宏观地球系统的科学问题都可以整合在同一个自回归 LLM 上用 next-word-prediction 的范式来完成预训练和推理。
同时,BigBang-proton 实验结果表明,目前主流的 AGI 技术路线,即以 GPT 5 和 DeepSeek R1 为代表的长程思维链(long horizon chain-of-thought)在理解真实物质结构上遭遇完全的失败,这说明仅依赖长程思维链不可能实现 AGI。
超对称公司提出了物质结构学习(Structure Learning)是实现 AGI 的必备要素之一,而掌握物质结构的 LLM 即可自然进入物理世界。
BigBang-Proton 所展现成果的重要性在于,回答了当前行业热烈争论的“预训练和 scaling law 是否已见顶”的问题。主流的通用 LLM 在全量互联网数据上训练,涉及到科学问题的数据也仅局限于人类已发表的数亿篇论文和书本,这些数据都是自然语言的模态,语言数据用光后自然遇到 scaling law hits wall 的问题。
而同时当前以图像学习为主的世界模型技术路线,以李飞飞和杨立坤为代表,认为 next-word-prediction 范式的 LLM 是死路,应从图像入手重构世界。超对称公司提出了第三种路线,即从物质结构学习入手,让 LLM 的预训练从互联网数据的困局中跳出来,进入物质世界,构建超长上下文来包含整个物质世界的世界模型,这样的预训练出来的基座可将语言、科学智能、空间智能、具身智能都整合在一个终极的统一模型上。
LLM 预训练的边界在哪里?BigBang-Proton 的答案是,LLM 的预训练会一直扩展到全宇宙。所以超对称公司在 BigBang-Proton 的基础上提出了一个大胆的设想,即“Universe Compression”,宇宙尺度压缩,将全宇宙的信息转为超长序列压缩到一个单一基座上,成为当前所有 AI 分支任务的基座。
与常见的从事语言学习的 LLM 公司不同,超对称公司长时间专注于用 LLM 来理解数字即 0-9。超对称公司初期的业务是分析新闻和财报预测金融市场波动,服务量化金融。
在金融业务中团队发现金融业务对数值数据高度敏感,如企业营收 11 位数,LLM 在推理过程幻觉导致 1 位数错误都会给业务带来崩盘。在这个业务过程超对称团队发现 LLM 使用字节对编码(byte pair encoding, BPE)带来了数值分析上的底层缺陷,这个缺陷也导致了常见的 LLM 笑话 9.11 比 9.8 大,他们进而发现数值能力的缺陷是主流 LLM 无法学习真实科学数据的原因之一。
真实世界的科研 90% 以上需要理论结合实验,而实验测量的结果大部分以数值来记录。超对称公司 2024 年发布的 BigBang-Neutron(首个科学计算基座大模型 BBT-Neutron 开源,助力突破大科学装置数据分析瓶颈)是首个专注于理解大规模实验数值的 LLM, 提出用二进制块编码(binary patch encoding)替代 BPE。而 BigBang-Proton 在 BigBang-Neutron 的基础上继续创新,实现真实世界科研的多任务学习。
1 基础性难题与 BigBang-Proton 的三项根本性创新
基于 LLM 构建面向专业科学任务的统一模型,必须解决几个基础性难题。BigBang-Proton 为此引入了三项根本性的创新:
创新一:二进制块编码——扔掉 Tokenizer 分词器,统一语言、数值与科学数据
传统的分词器,如字节对编码 Byte Pair Encoding(BPE)、SentencePiece 和 WordPiece,在数值上表现极差,且无法有效应对多学科、多尺度、多结构的科学数据表征。在对数字进行分词时会引入歧义和不一致性,导致同一个数字根据上下文被分割成不同的片段。这种标记 ID 的不连续性使得数值数据的管理和处理变得复杂,尤其在需要顺序或模式化的标记 ID 时。
我们彻底抛弃了传统的分词器,采用了二进制块编码 (Binary Patch Encoding)。该方法建立在超对称之前的工作 BigBang-Neutron 以及其他领域的重要贡献(如 BGPT、Megabyte、SpaceByte 和 BLT)之上。该方法基于一个深刻而简单的洞见:所有数据在计算机中最终都以二进制形式存储。因此,BigBang-Proton 将所有输入——无论是英文文本、中文汉字、Python 代码,还是粒子能量、原子坐标、DNA 序列——都统一视为最原始的二进制序列进行处理,目前使用 UTF-8 编码,而后通过对二进制序列切割为 Patch 块的方式来降低计算复杂度。
二进制块编码(Binar Patch Encoding)优势包括:
- 数值保真 :数字以其原生格式完整保存,避免了分词带来的信息失真,从而实现了精确的算术计算。这使得模型在高达 50 位数的加法运算中实现了 100% 的准确率。
- 真正统一 :一种编码方式处理所有模态数据,无论是文本、数值、符号还是结构数据,消除了对特定模态分词方案的需求,简化了预处理流程。
- 极致灵活 :能够无缝处理任何以二进制格式存储的科学数据集(如.bin、.dat 格式),为构建统一的数据表征奠定了基础。
创新二:理论 - 实验学习范式——弥合理论与实验的鸿沟
科学实验产出海量数值数据,如何能有效地与文本为中心的理论知识对齐和训练?解决了这个问题,就能覆盖 90% 以上的实验科研任务。科学知识以语言形式和定量形式存在,一个统一的模型必须整合符号推理与数据驱动学习。
超对称提出了理论 - 实验学习范式。这类似于为图片配标题的视觉 - 语言模型,但超对称是为科学实验数据配"理论描述标题"。该框架的核心创新在于建立一种混合表示,将数值型实验数据直接与文本描述对齐。
在 粒子物理 中,每个末态粒子的数值测量值(电荷、能量、动量分量、碰撞参数等)都与"带电π介子"或"中性强子"等文本注释配对,形成了类似于双模态图像 - 标题对的实验数据 - 文本对齐。
在 材料科学 中,大规模的实验或模拟数据集被系统地转换为自然语言描述,并嵌入到理论背景中。例如,对于 Ag₂SnYb 晶体结构,来自原始 MPtrj 格式的数据被分解并转换为自然语言描述。
除了这些即时注释外,该框架还整合了更深层次的理论解释,例如来自维基百科和研究文献等通用科学语料库的粒子物理中的量子色动力学(QCD)原理、夸克 - 胶子动力学,以及凝聚态物理中的密度泛函理论和电子结构。
理论 - 实验学习范式的优势:
- 双重对齐结构:在预训练期间,理论概念与实验数据序列被置于同一上下文中,从而在局部层面创建了即时的数据 - 标题对,在全局层面则提供了全面的理论解释。
- 科学计算转为序列学习:基于序列的自回归语言模型学习实验数据中的模式(这些模式传统上由图神经网络或数值分析模型捕获),并在统一的上下文中将数值观测与理论概念对齐。
- 语言引导的科学计算:通过集成的模式识别和语言推理,使模型能够根据自然语言指令直接执行科学任务,实现 Language-Guided Classification, Regression, Spatiotemporal Prediction, Genome Modeling 这些最常见的科学计算任务。
创新三:Monte Carlo Attention——为模拟复杂物质结构而生的注意力机制
从原子尺度模拟细胞、量子系统、地球和宇宙等复杂物质结构,模型需要处理极大的信息序列。传统 Transformer 的注意力机制计算复杂度随序列长度呈平方级增长,无法扩展到所需规模。
超对称用 蒙特卡罗注意力,Monte Carlo Attention 替代了传统的 Transformer 架构。这一创新旨在解决二进制块注意力计算中固有的计算复杂性,同时保留了稀疏注意力和状态空间模型(被认为是 Transformer 的主要替代方案)的优点。
其核心机制是分块代表交流机制,模仿人类代议制政治系统,将序列分为块后,每块派代表到其他块进行交流再回到本块,这样的机制使模型的有效上下文长度能够随着注意力层数的增加而指数级增长。
在本工作中,BigBang-Proton 采用 20 层 Monte Carlo Attention,实现了 10 30 字节的上下文容量。理论上,要达到可观测宇宙中重子粒子的估计数量 10 80,Monte Carlo Attention 层数可设为 60。如此高的上下文长度对于模型有效学习复杂的物质结构至关重要,其范围从细胞和量子色动力学(QCD)现象等微观系统,到地球系统、飞机、汽车乃至宇宙等宏观结构。
BigBang-Proton 选取了五个专业科学问题和通用语料进行预训练,包括五十位数算术运算,粒子对撞的喷注分类,材料原子间势能模拟(inter-atomic potential simulation), 水质预测,DNA/RNA/ 蛋白质联合建模。算术运算能力是 LLM 理解其他所有科学任务的基础,居于中心位置。其他四个科学任务都是其所在学科最核心的任务,该学科的诸多问题都可以从此任务延伸解决。
粒子喷注分类决定了科学家能从粒子对撞结果甄别出新粒子的能力,inter-atomic potential simulation 可推导出材料物理化学性能,水质预测是地球系统模拟的基础,DNA/RNA/ 蛋白质联合建模是生物信息学的核心。BigBang-Proton 的架构设计目标是实现语言引导的科学计算 (Language-guided scientific computing),包括语言引导的分类,回归,时空预测,DNA 序列模拟。
BigBang-Proton 有 1.5B 参数,训练损失和困惑度(perplexity)曲线在 61,381 步内表现出一致、平滑且单调的收敛,证明了在整个预训练过程中学习的稳定性和有效性。
损失稳步下降至 0.613,而困惑度降至 2.04,反映出模型在所有九个多样化任务中准确预测下一个标记的能力得到了显著提升。这种持续的改进表明,采用二进制块编码(Binary Patch Encoding)实现的“下一个词预测”,能够克服高数据异质性,并有效地实现稳健的模型收敛。
2 BigBang-Proton 在五个专业学科任务的表现
五十位数算术运算
在涉及最多 50 位数加法和减法以及最多 12 位数乘法的算术任务中,不调用外部工具和代码,只允许使用自身的能力,BigBang-Proton、DeepSeek-R1 和 ChatGPT-o1 这三个模型的准确率表现如下:BigBang-Proton 在加法、减法和乘法上的准确率分别为 100%、98% 和 90%。DeepSeek-R1 的准确率为 19.23%、11.63% 和 9.68%;而 ChatGPT-o1 的准确率最低,分别为 3.85%、6.98% 和 3.23%。
对于每项任务,BigBang-Proton 在 200 个样本的测试集上进行评估,而 DeepSeek-R1 和 ChatGPT-o1 在 100 个样本的测试集上进行评估。 BigBang-Proton 与通用 LLMs 在算术任务上巨大的性能差距源于二进制块编码(Binary Patch Encoding)和字节对编码(BPE)的区别。
超对称团队发现,BigBang-Proton 在推理过程展示了对数字位的高度敏感,学会了算术逻辑单元 arithmetic logic unit (ALU) 进位机制(carry mechanism)。ALU 是芯片的最基础逻辑单元,其原理是基于进位原则进行逐位操作。计算机所有高阶能力都建立在 ALU 上。二进制块编码完整保留了数值原本含义,能自然学到位置对齐和进位原则。BPE 倾向于将多位数分割成不规则的块(例如,“1009 + 8432”可能会被分割为“100”、“9”、“+”、“84”、“32”),这会破坏模型正确对齐操作,无法学到 ALU 的运行机制。
BigBang-Proton 在五十位数加法运算上达到 100% 准确率的进展,宣告了 LLM 算术幻觉这个长期的大难题从源头上得到彻底解决,将会对所有根基于数值计算的领域包括科学、工程、金融等产生深刻影响。
粒子喷注分类:语言引导的分类 Language-Guided Classification
在大型强子对撞机(LHC)或中国高能所正在建的正负电子希格斯工厂(CEPC)等设施进行的高能粒子对撞中,夸克和胶子会产生沿同一方向行进的强子准直喷流,即喷注(jets)。这些喷注保留了底层部分子动力学的信息,是研究量子色动力学(QCD)的关键信号。
BigBang-Proton 预训练数据包含了 1100 万条喷注数据,基于实验 - 理论学习的格式将实验数值至于理论文本的上下文中,在执行任务前继续用同样的数据进行微调,然后通过提示语 - 类别的格式,将喷注分为十一种基本粒子中的一种,包括五种夸克 (u, b, t, s, c) 及其反夸克和胶子 (gluon)。
在单类 100 万数据集规模下,BigBang-Proton 在 11 类分类任务中达到了 51.29% 的准确率,略低于采用相同二进制块编码的 BigBang-Neutron 的 52.18%。
与最先进的(SOTA)专用分类模型相比,Particle Transformer (ParT) 的 56.69% 和 ParticleNet (PN) 的 55.29%,BigBang-Proton 的准确率仅与这些专用模型相差 4.0-5.4%。这些结果显示 BigBang-Proton 语言引导分类的能力在真实的要求高精度计算的粒子物理任务中已达到可与专用 SOTA 模型竞争的水平。
不做微调,直接使用零样本推理,通用大语言模型(LLMs)在 11 类粒子喷注分类任务上的表现极为不足,所有模型的性能都接近随机猜测水平(10%)。DeepSeek-R1(8%)、ChatGPT-O1(7%)、Claude 3.5 Sonnet(9%)、KIMI(7%)和 ChatGLM(9%)仅取得了有限的准确率。
即使是专门为复杂推理设计的高级版本,如 GPT-5(16.4%)、Grok4(11.8%)和 Claude Sonnet 4 thinking(5.45%),也只显示出微小的改进,这表明它们复杂的推理能力在此科学任务中是无效的。
另外,超对称团队还使用 110 万喷注数据(每类 10 万个样本)微调两个主流大语言模型 Qwen 2.5 和 Llama3.2,然后进行零样本推理,进一步评估了它们的性能。结果表明 Llama3.2 的准确率仅为 0.09%,而 Qwen 2.5 的准确率为 0%。这一结果表明,使用 BPE 分词器的主流大语言模型在处理大规模数值数据方面存在根本性局限。
超对称团队还观察到语言引导的分类展示出有趣的行为,调整提示语的上下文,分类的结果有时会改变。这证实了实验 - 理论学习范式的有效性。“实验 - 理论学习范式实质是通过用人类语言表达的理论作为上下文,来约束实验数值在高维隐空间的检索,所以我们会看到上下文的调整会影响分类的输出。” 研发工程师何继华说。
参与使用 BigBang-Proton 进行喷注分类的中国高能物理研究所的阮曼奇老师说:“仅通过跟 BigBang-Proton 对话,就能实现平时我们要用专业模型才能做的分类计算,这是比较新奇的。专业分类模型仅能利用实验数值,这种理论结合实验的科学计算方式还有挺大潜力可以挖掘。”
材料原子间势能模拟:语言引导的回归 Language-Guided Regression
通过在原子晶格内对大规模电子相互作用进行建模来准确预测材料性质,传统上依赖于高保真的第一性原理方法,如密度泛函理论(DFT)和从头算分子动力学(AIMD),通过显式计算电子结构来提供量子力学精度。
由于 DFT 计算复杂度随原子数量呈三次方增长,大量的 machine learning inter-atomic potential simulation(MLIP) 模型被开发出来替代 DFT 计算,降低原子尺度模拟的计算复杂度,当前大部分这类 MLIP 模型都是基于 GNN 架构(例如,M3GNet 和 DPA-2)。
BigBang-Proton 选取行业主流的材料科学基准 Matbench 来测试原子间势能模拟的能力,在 Material Project Trajectory (MPTrj) 数据集上进行训练,遵循 MatBench 材料发现的合规政策。MPTrj 是一个大型的 DFT 弛豫晶体结构数据库,主要由经过实验测试的晶体生成,包含 94 种元素、145,923 种无机化合物,以及 1,580,395 个原子构型、1,580,395 个能量、49,295,600 个力、7,944,833 个磁矩和 14,223,555 个应力。
原子结构数据在训练前被统一转换为字节块序列。超对称采用包含 257,487 个结构的 Wang-Botti-Marques (WBM) 数据集来评估在 MPTrj 上训练的 BigBang-Proton 在新材料发现方面的能力。
BigBang-Proton 通过零样本提示方法进行语言引导的回归来计算原子间势能模拟。材料结构数据被分解为多个部分,每个部分都嵌入到相应的文本描述中。BigBang-Proton 学习了整合了理论描述和实验数据的完整上下文,以做出最终推理。
与仅依赖数值数据进行回归的传统专用模型相比,这种方法利用了对齐的理论和实验上下文来进行回归。科学原理和事实,包括“化学式”、“组成”和“原子位点”,是上下文组成部分。
Matbench 基准列出了 13 个任务,其中 10 个是回归任务,3 个是分类任务。对于 3 个分类任务,超对称可以应用模型通过回归生成中间结果。超对称选择回归任务“形成能预测”来展示 BigBang-Proton 在语言引导的回归的能力。BigBang-Proton 在形成能预测中实现了 0.043 eV/atom 的平均绝对误差(MAE),在 Matbench 排行榜上排名第 11 位。
BigBang-Proton 的性能优于一些专用的机器学习方法,如 AMMExpress(MAE=0.117 eV/atom)、表面络合模型 RF-SCM(MAE=0.117eV/atom)、基于注意力的模型 CrabNet(MAE=0.086 eV/atom)和特征选择模型 MODNet(MAE=0.045 eV/atom),落后于专用的 GNNs,如 coGN(MAE=0.017 eV/atom)、ALIGNN(0.022 eV/atom)和 SchNet(0.022 eV/atom)。
基于 LLM 的模型 Matterchat 在 Matbench 形成能预测中实现了 0.121 eV/atom 的均方根误差(RMSE),其误差显著大于 BigBang-Proton。这表明,在专用 GNN 模型 CHGNet 的嵌入上训练的通用大语言模型并未获得与端到端训练的 BigBang-Proton 相同的材料结构理解能力。
虽然 BigBang-Proton 在 MatBench 榜单仅排在 11 位,但已经进入实用水平,考虑到这是一个在多学科数据上预训练的 15 亿参数的 LLM,使用的是语言引导的回归方式,在 LLM 领域这是突破性的进展。
超对称团队将主流推理 LLMs(包括 DeepSeek R1 (MAE: 66.056 eV)、GPT 5 (MAE: 29.279 eV)、Claude Sonnet 4 (MAE: 57.377 eV) 和 KIMI K2 (MAE: 517.006 eV))与 BigBang Proton (MAE: 0.043 eV) 的形成能预测准确度进行了比较。
这些 LLMs 的结果跟可实用的水平有四到五个数量级的巨大差距。在零样本学习方案中,提示模型使用来自 MPTrj 测试数据集的原子结构作为输入,预测 110 组形成能。推理模型通常会生成冗长而复杂的推理步骤,特别是 DeepSeek R1,从解释数据集开始,进行一些简单的推断,如计算原子数量和能量值或数据集中的明显属性,这些推理绝大多数是错误或跟最终计算目标无关,对形成能做出最终猜测也跟真实值偏差巨大。这说明这些主流的 LLMs,经过预训练后所获得的材料结构和计算方面的知识相当有限。
上海交通大学材料学院的高文旆老师参与了 BigBang-Proton 在材料计算任务的初期相关讨论,他说:“BigBang-Proton 这样的融合多学科知识的模型和实验 - 理论学习的框架,对高熵材料的计算和材料基因组项目会有特别的作用。”
湖泊水质预测:语言引导的时空序列预测 Language-Guided Spatiotemporal Prediction
地球系统建模代表了人类理解并预测大气圈、水圈、冰冻圈、陆地表面和生物圈之间复杂相互作用的雄心勃勃的努力。在此框架内,水循环建模是一个关键组成部分,涵盖了海洋和大陆水系统。大陆水建模侧重于淡水系统,特别是湖泊和河流,它们是环境变化的哨兵,在全球生物地球化学循环中扮演着不成比例的重要角色。湖泊水质预测作为一个典型的跨学科任务,处于地球科学、湖沼学、生物学、化学、环境工程和经济学的交叉点,是地球系统建模中最具挑战性的方面之一。
与数值天气预报类似,许多用于水质预测的数值模型已通过机器学习方法开发出来。叶绿素 -a 浓度作为藻类生物量和生态系统健康的主要指标,是水质预测的关键因素。其内在的困难在于,叶绿素动态受多种因素控制,包括太阳辐射、温度、风、营养盐负荷、水体滞留时间、内部生物地球化学过程和人为影响。
在此任务中,BigBang-Proton 的目标是根据叶绿素 -a 浓度的历史时空数据来预测水质。BigBang-Proton 已在 2.62 亿字节的时空传感器数据上进行了预训练。Chao’du 进一步在湖泊水质数据上对 BigBang-Proton 进行了微调。湖泊水质数据集由部署在中国无锡市五里湖的传感器收集。传感器每 30 秒收集一次数据,总共跨越 2 年。
80% 的数据集用于训练,20% 用于评估。该数据集包括带有日期信息的时间戳、由经纬度指定的精确位置,以及一套全面的水质参数。这些参数涵盖了营养盐(包括氨氮、总氮和总磷)、光学特性(如浊度、TSM、C550、SDD、CDOM 吸收系数和高锰酸盐指数)、物理参数(如气温)以及作为预测目标变量的叶绿素 -a(以 \mu g/L 为单位)。项目使用从湖泊中心区域的一个单一位置收集的数据进行训练。
使用 BigBang-Proton 进行湖泊水质语言引导的时空预测,方法是每个提示都以时间序列数据输入开始,然后明确指示模型根据给定上下文确定叶绿素 -a 浓度。这些由传感器生成的多因素时间序列数据定量地描述了物理世界指标的波动。时间序列建模被转换为 BigBang-Proton 的上下文内学习和推理。
结果表明,该模型在叶绿素 -a 浓度预测中实现了 0.58 mu g/L 的 MAE, 和 0.098 的平均绝对百分比误差(MAPE),相比于目前的行业领先的机器学习时序预测模型,某研究使用在卫星数据上训练的模型实现了 1.85 mu g/L 的 MAE,而另一项研究则达到了 0.998 mu g/L 的 MAE 和 19.4% 的 MAPE。这表明 BigBang-Proton 的语言引导的时空序列预测达到了可以与 SOTA 竞争的水平。
叶绿素 -a(Chl-a)的动态变化由 12 个上下文变量驱动,包括氨氮、浊度、总氮、总磷、悬浮物浓度、消光系数、气温、异物检测、塞氏盘深度、高锰酸盐指数、CDOM 吸收系数和 pH 值,所有这些变量都是在时间和空间上测量的。
BigBang-Proton 通过将它们复杂的非线性相互作用视为一个上下文内学习问题,消除了专用时间序列建模中所需的人工特征工程。BigBang-Proton 中使用的建模方法可以扩展到湖泊系统之外,用于模拟更大尺度和更复杂的系统,从区域气候到地球系统。
德林海公司的技术总监杨元祥说:“BigBang-Proton 展示了 DeepSeek 和 ChatGPT 都没有具备的能力,我们的团队可以随时通过对话来获取未来水质的预测结果,这是全球第一个水质预报系统,像天气预报一样,水务行业的上下游产业都需要用,是人工智能落地到绿水青山就是金山银山的出色案例。”
DNA, RNA, 蛋白质联合建模:语言引导的基因序列预测 Language-Guided Genome Modeling
BigBang-proton 在基因建模的多个核心指标全面超过了对标的 SOTA 生物基座模型 Evo,而主流的通用 LLMs 在同样的基因序列预测任务的准确度依然处于随机猜测的水平。
Evo 是斯坦福大学医学院发布的行业领先的生物基座模型,在 DNA/RNA/ 蛋白质三种数据上联合训练和推理,目前已经发到第二版 Evo 2。BigBang-Proton 对标 Evo 第一版。在预训练阶段,超对称团队将与 Evo 相同的 OpenGenome 数据集(包含 273 亿个核苷酸 token,约为 Evo 所用数据的十分之一)与粒子物理、材料结构、算术、传感器和通用文本数据集混合,预训练 BigBang-Proton。
OpenGenome 数据集包含超过 8 万个细菌和古菌基因组,以及数百万个预测的噬菌体和质粒序列,总计约 3000 亿个核苷酸 token。出于安全考虑,训练数据中排除了感染真核宿主的病毒基因组。在下游任务阶段,BigBang-Proton 进一步使用 828 亿个核苷酸 token 对预训练模型进行微调。BigBang-Proton 总共学习了约 1101 亿 token。
上图是使用 BigBang-Proton 进行基因序列补全的零样本示例。用户以一段初始的核苷酸 DNA 序列作为提示,模型生成后续序列以完成该序列。生成的核苷酸序列的准确性也体现在训练困惑度上。
在相同的实验设置下,团队对 BigBang-Proton 和 Evo 在计算预算扩展进行了详细比较。计算最优(Compute-optimal)指的是在模型大小和训练 token 之间理论上最优的计算资源(FLOPs)分配,以实现最佳性能。在此比较中,超对称保持两个模型的数据集大小一致,并将评估困惑度(PPL)作为主要指标。
困惑度是序列建模任务中广泛使用的度量,值越低表示模型性能越好。BigBang-Proton (1.5B) 与 Evo (7B) 在计算预算最优实验中的评估困惑度比较。BigBang-Proton 仅使用了 Evo 三分之一的训练数据(1101 亿 vs 3000 亿 token),就达到了更低的困惑度(PPL = 2.8),而 Evo 的最优 PPL 为 3.1。
值得注意的是,BigBang-Proton 的 PPL 趋势仍在持续下降,表明其仍有进一步收敛的潜力,而 Evo 已达到其最优性能。这有力地证明了 BigBang-Proton 在基因组建模方面的架构优越性。
超对称团队进一步评测用开源通用 LLM 在 OpenGenome 数据上微调,看主流 LLM 架构是否能学到 DNA 序列分布。他们使用 12 亿参数的 Llama3 在 30 亿 OpenGenome token 上使用 LoRA 微调后达到了 6.23 的 PPL,15 亿参数的 Qwen2.5 达到了 6.89 的 PPL, 比 BigBang-Proton 和 Evo 高得多的困惑度,凸显了它们在基因组建模方面的局限性。巨大的性能差距表明,主流 LLMs 中使用的 BPE 分词器从根本上破坏了对 DNA 核心核苷酸词汇(A, G, T, C)的理解。
团队进一步在上下文长度 $L=512$ 个碱基对的情况下,评估了 BigBang-Proton 和其他主流通用 LLM(包括 DeepSeek-R1、ChatGPT-o1、Claude-3.5 Sonnet 和 Kimi)的下一个碱基预测准确率。BigBang-Proton 达到 56% 的准确率,而 DeepSeek-R1、ChatGPT-o1、Claude-3.5 Sonnet 和 Kimi 的准确率分别为 26.1%、25.0%、24.88% 和 25.95%。所有通用 LLM 的性能都处于随机水平即 25%,表明这些模型从根本上未能学习到支配基因组序列的复杂统计模式、生物规则和位置依赖关系。
预测突变对蛋白质功能的影响
除了评估困惑度外,超对称团队进一步评估了模型在生物学相关下游任务上的零样本预测能力,其中预测突变对蛋白质功能的影响是关键任务之一。结果表明,BigBang-Proton 能够有效预测突变的功能后果,在模型预测与实验适应度分数之间达到了 0.78546 的强斯皮尔曼相关系数(p 值:4.94e-41)。
这显著优于表现最佳的 SOTA 模型 Evo,后者在六个数据集中达到了 0.67 的最大斯皮尔曼相关系数和 0.45 的平均值。此外,超对称在同一任务上使用零样本测试将超对称的模型与其他几个先进模型进行了比较,DeepSeek R1 的斯皮尔曼相关系数为 -0.02,ChatGPT o1 为 -0.06,Claude 3.5 Sonnet 为 -0.11,KIMI 为 -0.02。这些比较凸显了超对称的模型在预测突变效应方面的卓越性能。
预测突变对非编码 RNA 功能的影响
BigBang-Proton 结果表明,该模型在预测非编码 RNA(ncRNAs)突变的功能效应方面表现出色。在 Kobori 等人(2015 年)的 DMS 数据集上,BigBang-Proton 达到了 0.68 的斯皮尔曼相关系数,显著优于 Evo 模型报告的最佳结果,后者在七个数据集的预测中达到了 0.65 的最大斯皮尔曼相关系数和 0.25 的平均值。
超对称在同一任务上使用主流通用 LLMs 进行了零样本测试,DeepSeek R1 的结果为 0.19,ChatGPT o1 为 -0.02,Claude 3.5 Sonnet 为 -0.16,KIMI 为 -0.01。结果表明,这些模型在 DMS 数据集上测试时获得的斯皮尔曼相关系数接近于零。
从调控 DNA 预测基因表达
鉴于 BigBang-Proton 训练数据也包含原核生物调控 DNA 序列,超对称进一步研究了该模型是否学习到了可用于调控 DNA 任务的有意义表示, 从启动子序列预测基因表达。启动子是控制基因转录起始的关键调控 DNA 元件。团队评估了模型根据启动子序列预测基因表达水平的能力。BigBang-Proton 在其预测与实验测量的基因表达水平之间达到了 0.72 的斯皮尔曼相关系数。这一性能显著优于 Evo 在同一任务上报告的最佳结果(斯皮尔曼相关系数为 0.68)。
团队在同一任务上使用主流通用 LLMs 进行了零样本测试,DeepSeek R1 的结果为 0.11,ChatGPT o1 为 -0.14,Claude 3.5 Sonnet 为 0.06,KIMI 为 0.06。结果表明,这些模型在启动子序列数据集上通过提示测试时获得的斯皮尔曼相关系数接近于零。
接近零的相关值(0.11 和 0.06)表明,这些模型本质上是在进行随机预测,与实际的基因表达水平没有有意义的关系,其表现仅略高于随机猜测的预期水平。ChatGPT o1 的 -0.14 负相关系数表明,其预测不仅不正确,而且与真实表达水平呈负相关。
BigBang-Proton 以 1.5B 的参数,约五分之一的 Evo 参数量,以及三分之一的 Evo 训练数据量,在困惑度以及基因变异功能预测三个任务上都胜出 Evo,显示了二进制块编码(Binary Patch Encoding)和实验 - 理论学习架构在理解 DNA 序列分布上的优势。
实验结果同时也展示了主流通用 LLM 无法直接学习 DNA 核苷酸序列,这有力说明了基于 BPE 编码的通用 LLM 架构无法直接从互联网数据延伸至物质结构。
超对称公司与波士顿大学 & 湘雅医学院的生物学家马龙教授合作,在 BigBang-Proton 基因组建模的基础上进一步开发虚拟细胞。马龙教授说:“相比于现有的生物基础大模型,BigBang-Proton 这样的多学科基座模型天然适合全细胞模拟,细胞不仅包含 DNA, RNA, 蛋白质,还涉及细胞液,细胞核,离子通道等物理化学动力学过程,BigBang-Proton 在掌握量子力学,分子动力学的基础上从原子尺度模拟全细胞具有优势。”
3 Scaling Law 的边界:从科学多任务学习 到宇宙尺度压缩
超对称团队发现,通过提示语 BigBang-Proton 能生成一个由夸克衰变产生的末态粒子组成的准喷注。BigBang-Proton 展示了生成近乎真实粒子数据的卓越能力,准确地再现了关键物理量,包括横向碰撞参数(d0)、纵向碰撞参数(z0)和粒子类型分配(电子、μ子、带电π介子)。
该模型在动量守恒(Px2+Py2=Pt2 )上表现出 1.24% 的偏差,并正确理解只有带电粒子才能拥有径迹碰撞参数。这些结果表明,BigBang-Proton 已经学习了支配喷注结构、生成和相互作用的底层物理关系和动力学,使其能够生成与现实世界观测结果非常相似的数据。
BigBang-Proton 能直接生成一个基本符合物理定律约束的准粒子喷注,说明其掌握了物质的微观结构。前面的实验结果表明,深入到基本物质结构层面,基于自然语言的长程思维链(chain-of-thought)方法在学习由实验测量所描述的物理结构的能力方面遭遇了彻底的失败。
作为人类对世界结构理解的一种表征,人类语言仅构成了对现实描述的一小部分。在这种情况下,即使无限的思维链也无法导向对物质结构的确定性理解。长程思维链是实现 AGI 的一种不完整方法。在此基础上超对称团队提出,物质结构学习(Structure Learning)是实现 AGI 必不可缺的部分。
从 BigBang-Proton 的实验结果出发,超对称公司提出假设:自回归 LLM 的 Scaling Law 尚未见顶。继续扩展 LLMs 将进入物质世界,极限是宇宙的边界。LLMs 的预训练最终将收敛到大爆炸时刻的基本物理定律以及信息与物质的交汇点。
超对称公司提出了宇宙尺度压缩(Universe Compression)的构想,暂不考虑现实中计算资源和数据的挑战,在一个二进制序列中重建物理世界。首先,建立一个统一的时空框架,跨越宇宙、星系、地球到夸克尺度,将每个自由度置于一个一致的时空结构中。
其次,整合人类科学研究在所有尺度、结构和学科上产生的所有理论和实验数据,这相当于整个可观测宇宙历史的总体数据内容。
最后,通过整合所有天然材料和人造物体及活动(包括建筑、城市、工厂、车辆、飞机以及经济、政治、战争等)的数据,从夸克尺度出发重建地球和人类文明。BigBang-Proton 的三项技术创新,二进制块编码(Binary Patch Encoding),理论 - 实验学习范式,蒙特卡罗注意力(Monte Carlo Attention)为宇宙尺度压缩提供了完善的技术基础。
“BigBang-Proton 的技术创新是在宇宙尺度压缩这个目标的倒逼下产生的,我们需要找到面向所有物质结构的普适表征方法,最后发现利用计算机原生的二进制最有效;我们需要从微观粒子出发复现宇宙尺度的物理结构,需要同样规模的上下文长度,开发出了 Monte Carlo Attention。我们需要全量人类对物质世界观测的数据,所以有理论 - 实验学习范式。”超对称公司首席科学家吴恒魁说。
当被问及为什么不用流行的 Science Agents 方式来解决科学任务,吴恒魁说:“science agents 的问题是并没有把对物质结构进行观测的实验结果放到同一个上下文隐空间,就无法形成真正的跨学科迁移学习。我们的目标是将整个宇宙当做一个整体,这样就能形成传统学科分类上差别极大的任务之间互相交流和对话,恒星的形成和 DNA 序列之间是不是有直接联系?高温超导和育种有没有关系?这是全新的科学。
另外我们认为 LLM 这项技术就不是一种类人的智能,Agent 未必能实现类人的自主性。甚至我们对智能本身也没有执念,把智能的标签移开,我们认为 LLM 是大自然局部的统计分布的映射,将 LLM 推到极致,获得大自然全局的统计分布,这是确定的。”
超对称公司的下一步工作是将 BigBang 模型的语言推理能力推到现有 SOTA 水平基础上去模拟更复杂的物质结构,为宇宙尺度压缩打基础,包括宇宙大爆炸过程、核聚变、高温超导、虚拟细胞系统、地球系统、机器人和飞行器。
目前超对称公司和中国高能物理所在大对撞机(CEPC)和高海拔宇宙观测站(Large High Air Altitude Shower Observatory)进行合作,尝试用 BigBang-Proton 为粒子对撞和高能量宇宙射线两种截然不同的物理研究对象和不同大科学装置联合建模。
超对称公司和合肥科学岛的强磁场中心进行了多轮讨论,利用 BigBang-Proton 的数值分析能力来对强磁运行进行诊断。强磁是核聚变装置基础部件,超对称团队和国内核聚变实验室以及创业公司正进一步探讨将 BigBang-Proton 应用到下一代核聚变装置的研发。高温超导是核聚变实验的基础材料,超对称公司和南京大学闻海虎高温超导重点实验室合作,攻关高温超导原理这个未解之谜,以及跟上海交大材料学院高文旆实验室合作开发高熵材料的高通量计算和高通量实验方案。
虚拟细胞是当前全球前沿实验室追逐的目标,超对称公司和湘雅医学院马龙教授合作,用具有多学科知识的 BigBang-Proton 建模细胞系统。在着手宇宙尺度压缩之前,超对称公司首先进行地球系统压缩,从大气到洋流,地壳到地幔,地核,以及地表建筑,训练在一个统一基座上,这样的全物理空间建模所构建的世界模型,是具身智能必不可少的基础。而 BigBang-Proton 从原子尺度复现飞机、汽车这种最复杂的人造物质结构,将推动生产制造的快速迭代。
开源链接:
https://arxiv.org/abs/2510.00129
https://github.com/supersymmetry-technologies/BigBang-Proton
https://huggingface.co/SuperSymmetryTechnologies/BigBang-Proton
本文来自微信公众号 “InfoQ”(ID:infoqchina),作者:超对称技术,36氪经授权发布。















