哈萨比斯出的难题，GPT之父接上了：用一个知识停在1930年的模型

机器之心·2026年04月30日 14:53

一个训练数据截止到 1911 年的模型，能不能自己推导出爱因斯坦 1915 年提出的广义相对论？

「一个训练数据截止到 1911 年的模型，能不能自己推导出爱因斯坦 1915 年提出的广义相对论？」今年年初，哈萨比斯给出了一个极其硬核的 AGI 判定标准。

没想到的是，这件事真的有人尝试去做了，而且其中一位作者还是 GPT 之父 Alec Radford。

最近，Alec Radford 和「神经常微分方程」提出者之一、陈天琦导师 David Duvenaud 以及量化专家 Nick Levine 一起做了一个有趣的项目：用 1931 年以前的数据训练了一个 13B 模型 ——Talkie，然后和这个模型对话，看看会发生什么有意思的事情。

这个「来自 1930 年」的模型被切断了所有现代知识的污染。这给了研究者一个罕见的机会：当你想测试一个 AI 到底是真的理解了某些能力，还是仅仅在重复训练数据里的答案，talkie-1930 就是那个诚实的参照系（理论上是）。对于哈萨比斯提出的问题，这也是一个很好的探索起点。

来自 1930 年的模型，有什么用？

talkie 的训练数据，全部来自 1931 年以前的英文文本，包括书籍、报纸、期刊、专利、法律文书，总计 2600 亿个 token。之所以选这一年作为截止点，是因为在美国，在此之前的作品已进入公共领域，可以合法使用。

模型训练好之后，研究者们做了一件很有趣的事：他们开了一个 24 小时的直播频道，让 Claude Sonnet 4.6 全天候地去和 talkie‑1930 聊天，探索这个「古人」的知识边界。对话记录是公开的。

其他人也可以试用这个模型，以下是我们问的两个简单的小问题。

体验链接：https://talkie-lm.com/chat

但更有意思的，不是模型具体表现，而是研究者们为什么要这么做。

他们提出了一个问题：一个只活在过去的模型，能在多大程度上「预感」到未来？

他们从《纽约时报》的「历史上的今天」栏目里抓了将近 5000 条历史事件的描述，然后测量这些描述对 talkie 来说有多「意外」。用信息论的语言说，就是每字节文本的惊讶度。结果正如预期的那样：1930 年之前的事，talkie 不觉得意外；1930 年之后，惊讶度明显爬升，在五六十年代达到顶峰，之后趋于平稳。

这套方法背后藏着一个更野心勃勃的设想。研究者们引用了 DeepMind 创始人 Demis Hassabis 曾经提出过的问题（如前所述），他们还举了几个类似的例子：西科斯基的直升机专利（1935 年）、图灵关于可计算数的论文（1936 年）、卡尔森的静电复印专利（1942 年）—— 这些都是 talkie「理论上」无法知晓的东西。但如果模型足够大、理解足够深，能不能凭借对已有知识的推演，自己走到那一步？

这个问题目前还没有答案，但已经足够让人认真想一想了。

他们提出的第二个动机，是污染问题。

评估大模型能力，有一个长期困扰研究者的麻烦：你怎么知道模型是真的「会」，而不是在训练数据里见过这道题的答案？这个问题几乎无解，因为现代模型的训练数据实在太庞大，根本没法逐一排查。

talkie 天然绕开了这个问题。它完全不知道 Python 是什么，也从未见过任何一行现代代码。于是研究者们做了一个实验 —— 用 HumanEval 这套标准编程测试来评估它。他们给 talkie 随机挑选几个 Python 函数作为示例，然后让它自己写一个新的出来，看它能在 100 次尝试中至少答对一次的比例有多高。

结果是：talkie 确实能学，而且随着规模的扩大，模型在这项任务上的表现会缓慢但稳定地提升。

但比起训练在现代网页数据上的同等规模模型，talkie 还有很大差距。而且，它答对的题目全都属于两类：要么是极简单的单行程序，要么是对示例程序的小幅改动。研究者们特别提到了一个例子 —— 一个旋转密码的解码函数。示例里给了编码函数，talkie 理解了「逆操作」的概念，把加号换成减号，一字之差，答案正确。他们认为，这说明模型对「逆函数」这个抽象概念有所理解，而不只是在照猫画虎。

一个对数字计算机一无所知的模型，依然能从示例里摸索出编程的逻辑。这个结果让研究者们觉得值得继续往下做。

第三个动机，是关于数据多样性的一个更深层的问题。

当今所有主流大模型，无论是 GPT、Claude、还是 Gemini，训练数据最终都指向同一个来源：互联网。直接爬取也好，蒸馏也好，合成数据也好，本质上都是同一片信息海洋的产物。这就引出了一个值得认真对待的问题：我们以为自己在研究「语言模型的普遍规律」，实际上研究的，会不会只是「训练在互联网上的模型」的特殊性质？这些模型在气质、能力和行为倾向上的相似，到底有多少来自人类语言和文化的共性，又有多少只是因为喝了同一口井里的水？

talkie 提供了一个对照组。通过研究它与现代模型的异同，研究者们希望剥离出哪些特征是语言模型的普遍属性，哪些是「互联网训练」的特有产物。

为了更直观地衡量 talkie 的能力，研究者们还专门训练了一个「现代孪生」模型 —— 架构完全一样，只是把训练数据换成了现代网页数据集 FineWeb。两个模型在语言理解、数字计算和知识掌握三个维度上正面比较。

结果是 talkie 全面落后。但研究者们注意到一个细节：测试题里有很多问题，对一个只知道 1930 年以前世界的模型来说，本身就是「超纲」的 —— 它没有理由知道那些事。把这些题目过滤掉之后，两个模型之间的差距大约缩小了一半。

在语言理解和数字计算这两个维度上，talkie 的表现与现代孪生模型相当接近。研究者们认为，剩余的差距，很可能来自两个原因：一是历史文本的 OCR 识别质量较差，二是训练语料的主题分布与现代模型差异较大。

训练复古模型，没有那么容易？

训练一个复古模型远没有听起来那么简单。

最棘手的问题叫「时间泄漏」。训练数据的截止日期是 1930 年，但「1930 年以前出版」并不等于「内容只涉及 1930 年以前的事」。一本 1920 年的书，如果后来重版，编辑可能加了现代的序言；一份报纸的数字化档案，可能附带着整理者写的当代注释。这些内容一旦混进训练集，模型就会在不该知道的地方突然「开窍」。

早期的 7B 版本就出过这种状况 —— 有人问它 1936 年谁是美国总统，签署了哪些重要立法，它不假思索地答出了罗斯福和新政的细节，顺带还提到了联合国和德国的战后分裂。一个理应只活在 1930 年的模型，不知从哪条缝里看到了后来的世界。

研究者们为此开发了一套基于 n-gram 的异常词检测分类器，专门用来过滤训练数据，但承认这套方法并不完美。13B 版本的 talkie 依然对二战后的某些事情有模糊的感知。怎么彻底堵住这条缝，还是一个未解决的问题。

另一个麻烦是数据质量。1930 年没有数字出版，所有文本都要从纸质原件扫描、识别。传统的 OCR 系统对付干净的印刷品还行，碰上版式复杂或保存不善的旧书，识别出来的东西往往惨不忍睹 —— 字母错位、段落混乱、符号乱入。研究者们做过对照实验：同样的训练量，用传统 OCR 转录的文本训练出来的模型，性能只有人工转录版本的 30%。做一些正则清洗之后，能回升到 70%，但差距仍然很大。

他们现在正在开发一套专门针对历史文献的 OCR 系统，希望把这个缺口补上。

还有一个问题是训练后的对齐。现代大模型的指令微调，依赖大量人工标注的对话数据，但那些数据全都带着现代世界的气息和预设。用它们来微调 talkie，就像是把一个维多利亚时代的绅士送去参加企业培训，出来之后说话开始带着 PPT 腔。早期版本的 talkie 在强化学习之后，有段时间说话全是列表和要点，完全不像一个 1930 年代的人。

为了解决这个问题，研究者们从历史文本本身入手，用礼仪手册、书信范文、烹饪食谱、百科全书这类结构规整的旧书生成指令 - 回复对，从头构建了一套后训练流程。用 Claude Opus 4.6 扮演用户、talkie 扮演助手，生成多轮对话，再用 Claude Sonnet 4.6 做裁判，给 talkie 的回答打分。训练开始时，裁判平均给 2 分（满分 5 分），结束时升到了 3.4 分。