哈萨比斯出的难题,GPT之父接上了:用一个知识停在1930年的模型
「一个训练数据截止到 1911 年的模型,能不能自己推导出爱因斯坦 1915 年提出的广义相对论?」今年年初,哈萨比斯给出了一个极其硬核的 AGI 判定标准。
没想到的是,这件事真的有人尝试去做了,而且其中一位作者还是 GPT 之父 Alec Radford。
最近,Alec Radford 和「神经常微分方程」提出者之一、陈天琦导师 David Duvenaud 以及量化专家 Nick Levine 一起做了一个有趣的项目:用 1931 年以前的数据训练了一个 13B 模型 ——Talkie,然后和这个模型对话,看看会发生什么有意思的事情。
这个「来自 1930 年」的模型被切断了所有现代知识的污染。这给了研究者一个罕见的机会:当你想测试一个 AI 到底是真的理解了某些能力,还是仅仅在重复训练数据里的答案,talkie-1930 就是那个诚实的参照系(理论上是)。对于哈萨比斯提出的问题,这也是一个很好的探索起点。
来自 1930 年的模型,有什么用?
talkie 的训练数据,全部来自 1931 年以前的英文文本,包括书籍、报纸、期刊、专利、法律文书,总计 2600 亿个 token。之所以选这一年作为截止点,是因为在美国,在此之前的作品已进入公共领域,可以合法使用。
模型训练好之后,研究者们做了一件很有趣的事:他们开了一个 24 小时的直播频道,让 Claude Sonnet 4.6 全天候地去和 talkie‑1930 聊天,探索这个「古人」的知识边界。对话记录是公开的。
其他人也可以试用这个模型,以下是我们问的两个简单的小问题。
体验链接:https://talkie-lm.com/chat
但更有意思的,不是模型具体表现,而是研究者们为什么要这么做。
他们提出了一个问题:一个只活在过去的模型,能在多大程度上「预感」到未来?
他们从《纽约时报》的「历史上的今天」栏目里抓了将近 5000 条历史事件的描述,然后测量这些描述对 talkie 来说有多「意外」。用信息论的语言说,就是每字节文本的惊讶度。结果正如预期的那样:1930 年之前的事,talkie 不觉得意外;1930 年之后,惊讶度明显爬升,在五六十年代达到顶峰,之后趋于平稳。
这套方法背后藏着一个更野心勃勃的设想。研究者们引用了 DeepMind 创始人 Demis Hassabis 曾经提出过的问题(如前所述),他们还举了几个类似的例子:西科斯基的直升机专利(1935 年)、图灵关于可计算数的论文(1936 年)、卡尔森的静电复印专利(1942 年)—— 这些都是 talkie「理论上」无法知晓的东西。但如果模型足够大、理解足够深,能不能凭借对已有知识的推演,自己走到那一步?
这个问题目前还没有答案,但已经足够让人认真想一想了。
他们提出的第二个动机,是污染问题。
评估大模型能力,有一个长期困扰研究者的麻烦:你怎么知道模型是真的「会」,而不是在训练数据里见过这道题的答案?这个问题几乎无解,因为现代模型的训练数据实在太庞大,根本没法逐一排查。
talkie 天然绕开了这个问题。它完全不知道 Python 是什么,也从未见过任何一行现代代码。于是研究者们做了一个实验 —— 用 HumanEval 这套标准编程测试来评估它。他们给 talkie 随机挑选几个 Python 函数作为示例,然后让它自己写一个新的出来,看它能在 100 次尝试中至少答对一次的比例有多高。
结果是:talkie 确实能学,而且随着规模的扩大,模型在这项任务上的表现会缓慢但稳定地提升。
但比起训练在现代网页数据上的同等规模模型,talkie 还有很大差距。而且,它答对的题目全都属于两类:要么是极简单的单行程序,要么是对示例程序的小幅改动。研究者们特别提到了一个例子 —— 一个旋转密码的解码函数。示例里给了编码函数,talkie 理解了「逆操作」的概念,把加号换成减号,一字之差,答案正确。他们认为,这说明模型对「逆函数」这个抽象概念有所理解,而不只是在照猫画虎。
一个对数字计算机一无所知的模型,依然能从示例里摸索出编程的逻辑。这个结果让研究者们觉得值得继续往下做。
第三个动机,是关于数据多样性的一个更深层的问题。
当今所有主流大模型,无论是 GPT、Claude、还是 Gemini,训练数据最终都指向同一个来源:互联网。直接爬取也好,蒸馏也好,合成数据也好,本质上都是同一片信息海洋的产物。这就引出了一个值得认真对待的问题:我们以为自己在研究「语言模型的普遍规律」,实际上研究的,会不会只是「训练在互联网上的模型」的特殊性质?这些模型在气质、能力和行为倾向上的相似,到底有多少来自人类语言和文化的共性,又有多少只是因为喝了同一口井里的水?
talkie 提供了一个对照组。通过研究它与现代模型的异同,研究者们希望剥离出哪些特征是语言模型的普遍属性,哪些是「互联网训练」的特有产物。
为了更直观地衡量 talkie 的能力,研究者们还专门训练了一个「现代孪生」模型 —— 架构完全一样,只是把训练数据换成了现代网页数据集 FineWeb。两个模型在语言理解、数字计算和知识掌握三个维度上正面比较。
结果是 talkie 全面落后。但研究者们注意到一个细节:测试题里有很多问题,对一个只知道 1930 年以前世界的模型来说,本身就是「超纲」的 —— 它没有理由知道那些事。把这些题目过滤掉之后,两个模型之间的差距大约缩小了一半。
在语言理解和数字计算这两个维度上,talkie 的表现与现代孪生模型相当接近。研究者们认为,剩余的差距,很可能来自两个原因:一是历史文本的 OCR 识别质量较差,二是训练语料的主题分布与现代模型差异较大。
训练复古模型,没有那么容易?
训练一个复古模型远没有听起来那么简单。
最棘手的问题叫「时间泄漏」。训练数据的截止日期是 1930 年,但「1930 年以前出版」并不等于「内容只涉及 1930 年以前的事」。一本 1920 年的书,如果后来重版,编辑可能加了现代的序言;一份报纸的数字化档案,可能附带着整理者写的当代注释。这些内容一旦混进训练集,模型就会在不该知道的地方突然「开窍」。
早期的 7B 版本就出过这种状况 —— 有人问它 1936 年谁是美国总统,签署了哪些重要立法,它不假思索地答出了罗斯福和新政的细节,顺带还提到了联合国和德国的战后分裂。一个理应只活在 1930 年的模型,不知从哪条缝里看到了后来的世界。
研究者们为此开发了一套基于 n-gram 的异常词检测分类器,专门用来过滤训练数据,但承认这套方法并不完美。13B 版本的 talkie 依然对二战后的某些事情有模糊的感知。怎么彻底堵住这条缝,还是一个未解决的问题。
另一个麻烦是数据质量。1930 年没有数字出版,所有文本都要从纸质原件扫描、识别。传统的 OCR 系统对付干净的印刷品还行,碰上版式复杂或保存不善的旧书,识别出来的东西往往惨不忍睹 —— 字母错位、段落混乱、符号乱入。研究者们做过对照实验:同样的训练量,用传统 OCR 转录的文本训练出来的模型,性能只有人工转录版本的 30%。做一些正则清洗之后,能回升到 70%,但差距仍然很大。
他们现在正在开发一套专门针对历史文献的 OCR 系统,希望把这个缺口补上。
还有一个问题是训练后的对齐。现代大模型的指令微调,依赖大量人工标注的对话数据,但那些数据全都带着现代世界的气息和预设。用它们来微调 talkie,就像是把一个维多利亚时代的绅士送去参加企业培训,出来之后说话开始带着 PPT 腔。早期版本的 talkie 在强化学习之后,有段时间说话全是列表和要点,完全不像一个 1930 年代的人。
为了解决这个问题,研究者们从历史文本本身入手,用礼仪手册、书信范文、烹饪食谱、百科全书这类结构规整的旧书生成指令 - 回复对,从头构建了一套后训练流程。用 Claude Opus 4.6 扮演用户、talkie 扮演助手,生成多轮对话,再用 Claude Sonnet 4.6 做裁判,给 talkie 的回答打分。训练开始时,裁判平均给 2 分(满分 5 分),结束时升到了 3.4 分。
他们也坦承,用现代 AI 做裁判,本身就是一种「时代污染」。彻底干净的做法,应该用 talkie 的基础模型来评价 talkie 的对话 —— 自己审判自己,完全活在 1930 年的逻辑里。这是他们下一步想尝试的方向。
目前,他们正在训练一个 GPT-3 级别的模型,并希望在今年夏天发布。初步估计表明,他们可以将语料库扩展到超过 1T 个历史文本 token,这应该足以创建一个 GPT-3.5 级别的模型 —— 其功能与最初的 ChatGPT 类似。
本文来自微信公众号 “机器之心”(ID:almosthuman2014),作者:穿越1930的,36氪经授权发布。















