Anthropic联创曼恩:超级智能可能最早2028年出现
近日,Anthropic联合创始人本杰明·曼恩在《Lenny's Podcast》播客节目中,就AI的未来发展及其对人类社会和就业的深远影响发表了见解。
本杰明·曼恩曾是OpenAI GPT-3的创始架构师。在最新对话中,曼恩讨论了多个重要话题,其中涉及到他从OpenAI离开并创立Anthropic的初衷、他对AGI出现的时间预期、以及他如何看待经济图灵测试作为衡量AGI实现的标准。此外,他还探讨了Scaling Law为何没有减缓反而加速,AI安全和对齐为何如此重要以及目前AI研究中的最大瓶颈等话题。
以下为曼恩在访谈中分享的核心观点:
- 尽管有观点认为AI遇到瓶颈,Anthropic则认为技术进步加速,模型迭代周期已从每年缩短至每季度甚至每月,Scaling Law仍然有效,只需从传统预训练转向强化学习应用。
- 与传统的基于人类反馈的强化学习(RLHF)不同,Anthropic提倡自我反馈强化学习(RLAIF),使AI能自我改进,减少人类干预,具备更高的可扩展性,但也面临风险和挑战。
- Anthropic已建立五级AI安全评估体系,目前其模型处于第三级,有一定风险但不严重,第五级有可能导致人类灭绝。
- Anthropic定义AGI为能够在多个高价值工作岗位上通过“经济图灵测试”的AI系统,一旦实现,将对全球GDP、社会结构和就业市场产生深远影响。
- 曼恩认为,当AI能通过50%高薪岗位的“盲测”(雇主无法分辨人机),即标志变革性AI诞生,这将引爆全球GDP重构与社会形态变革。
- 曼恩表示,从经济学角度看,失业将由技能错配和工作消亡两种形态交织而成,且在20年后,技术奇点的突破可能导致资本主义也迎来更多变革。
- AI可能导致20%的白领职位消失,但更大影响将来自AI对工作性质和社会结构的根本改变。未来工作将不再单纯依赖人工,而是与AI协同合作,极大提升生产力。
- AI已经能自动编写95%的代码,但它们无法超越人类的创造性思维,创造力将是人类最后的护城河。
- 基于算力扩张与Scaling Law,曼恩预测超级智能可能最早在2028年出现。但对其社会影响会滞后,且影响分布不均。
以下为曼恩专访精华内容:
01 AI人才争夺战:1亿美元签约奖金与Anthropic的使命坚守
Anthropic联合创始人自信直言:团队坚守AI造福人类使命,不怕高薪挖角
问:近期Meta首席执行官马克·扎克伯格为招揽顶尖AI人才,开出了价值1亿美元的签约奖金和薪酬方案,从各大AI实验室大规模挖角。这对Anthropic是否造成冲击?
曼恩:当前AI技术的开发价值与行业发展速度,确实催生了这种量级的竞争。不过Anthropic受到的影响相对较小,因为我们的团队成员普遍具有强烈的使命感。
即便面对天价报价,他们通常会表示:“在Meta或许能获得更高收入,但在Anthropic能直接影响人类未来,推动AI技术造福社会。” 对我而言,这根本不需要犹豫。当然,每个人的生活境遇不同,选择无可厚非。但就我个人而言,绝不会因此离开。
问:1亿美元签约奖金是否真实存在?你是否接触过具体案例?
曼恩:完全可以确信其真实性。设想一位顶尖研究员可能带来的价值:如果其工作能将推理效率提升1%-10%,产生的商业价值可能远超这个数字。以四年薪酬计算,1亿美元与这类人才创造的价值而言,甚至算得上“性价比”很高。
我们正处在一个规模空前的时代——目前全行业资本支出约3000亿美元,而且差不多每年会翻一番,1亿美元不过是九牛一毛。但按指数增长推算,几年后这个数字可能变成万亿级,届时现在的天价报价反而会显得“保守”。
02 AI发展遭遇瓶颈?新模型发布频率越来越快
问:当前业内出现“AI发展遭遇瓶颈”的论调,认为新模型智能提升不再显著。但你似乎认为Scaling Law依然有效?
曼恩:类似论调每隔半年就会出现一次,但从未应验过。我认为,实际上技术进步正在加速:模型迭代周期已从每年缩短至每季度甚至每月,这要归功于后期训练技术的突破。
正如达里奥·阿莫代伊(Anthropic联合创始人兼CEO)所比喻,这就像接近光速飞行时产生的时间膨胀效应,我们的进步速度正在呈非线性增长,认为进展放缓其实是种错觉。
Scaling Law仍然有效,只是需要从传统预训练转向强化学习的规模化应用。这类似于半导体行业的发展轨迹——当晶体管微缩接近极限时,我们转而追求数据中心级的算力规模。关键是要动态调整技术路线的定义。
问:现在新模型发布频率越来越高,导致人们将每个新版本与前一个版本对比时,感觉进步不明显。这是不是意味着人们忽略了迭代加速带来的认知偏差?
曼恩:我想为那些认为进展放缓的人说句公道话——在某些特定任务上,我们的确已经接近了该任务所需的智能上限。比如从结构化的表单文档中提取信息这种任务,现在的模型表现已经近乎完美,可以说达到了100%的能力水平。
事实上,牛津大学线上平台《Our World in Data》上有张很说明问题的图表:每当一个新的基准测试发布后,通常在6-12个月内就会被模型性能“摧毁”。所以真正的瓶颈可能在于:我们如何设计更具挑战性的基准测试?如何设定更有野心的任务目标?这样才能更好地利用现有工具,并更准确地评估我们正在经历的智能“波动期”。
03 AGI何时到来?创造力成人类最后护城河
问:你对AGI有着独特的定义和理解方式?
曼恩:我认为,AGI确实是个充满争议的术语,因此我现在更倾向于使用“变革性AI”这个概念。这个表述更关注AI是否能对社会经济产生实质性变革影响,而非纠结于它是否具备人类水平的全能智能。
具体来说,我推崇经济图灵测试这一衡量标准——当某个AI智能体能够胜任某个工作岗位,且雇主无需在意它是机器还是人类时,就算通过了该岗位的测试。
我们可以参照购买力平价指数的构建方法,选取一个有代表性的“职业篮子”。当AI能通过其中50%的高价值岗位(按薪资加权)的经济图灵测试时,就可以认定为变革性AI。
虽然具体阈值可以讨论,不过一旦达到这个标准后,必将对全球GDP、社会结构和就业市场产生深远影响。社会制度具有惯性,变革往往是渐进的,但当这个临界点到来时,就意味着新时代的开启。
问:阿莫代伊预测AI可能导致20%的白领失业,你认为当前社会是否低估了AI对职场的影响?
曼恩:从经济学视角看,失业可分为技能错配型和工作消亡型,未来这两种形态将相互交织。但如果我们把目光放到20年后——那时我们早已越过技术奇点,资本主义或将变得与今天截然不同。
在理想情况下,如果我们成功开发出安全可控的超级智能,就像阿莫代伊在《Machines of Love and Grace》中描述的:数据中心里运行着无数“数字天才”,科技、教育等领域将迎来爆发式发展。
在一个劳动近乎免费、专家智能唾手可得的富足世界里,“工作”这个概念本身都会被重新定义。当然,从现状到这个理想状态之间,必然要经历痛苦的转型期。正因其被称为“奇点”,就意味着这个转折将快得超乎想象,而且无法轻易预测。
问:很多人觉得“我的工作没什么变化”,这种认知偏差从何而来?
曼恩:这部分源于人类对指数级增长的认知局限。观察指数曲线时,初期变化微不可察,直到突破拐点后才会呈现爆发式增长,接着就几乎是垂直增长。
我个人在2019年GPT-2发布时就意识到这个拐点将至,但直到ChatGPT出现,大众才真正感受到变革的来临。所以,我不指望大范围的社会转型会在短期内发生,更多的是会看到一种怀疑的反应。我认为这种怀疑是很合理的,毕竟这是传统的线性进步观念。
目前最显著的变革发生在两个领域:一是客户服务,在没有人工介入的情况下,像Fin和Intercom这类客服领域的智能体工具,已能自主解决82%的常规问题;二是软件开发,我们的Claude Code能自动生成95%的基础代码。更准确地说,工程师现在能产出10-20倍的代码量,团队效率得到质的提升。
这种变革的本质是生产力重构,人类员工能够将精力集中在更复杂、更棘手的情况上,而这些问题五年前可能会因为人工无法及时处理而被忽略。但现在,AI帮助员工处理大量简单的工作,让他们有更多时间专注于更有挑战性的问题。
我认为在短期内,劳动力的生产力将大幅提高,每个人能做的事情也会大大增加。作为高速发展企业的招聘负责人,我从未听过“我们不需要更多人”这种说法,这或许是个乐观信号,但社会必须为即将到来的结构性调整做好准备。那些技能要求较低,或者没有太多提升空间的工作,我觉得会被大量取代。
问:面对AI可能带来的职业替代风险,你对普通人有什么具体建议?
曼恩:我想说的是,即使像我这样身处AI行业核心的人,同样面临着被技术变革淘汰的风险。这种不确定性是所有人都要面对的。但关键在于我们如何应对——最重要的就是保持开放和学习的心态,勇于尝试新工具,并且要真正理解如何发挥这些工具的最大价值。
以编程工作为例,很多人只是把AI助手当作一个更智能的自动补全工具使用。但我们发现,那些真正能用好Claude Code的人,最大的特点是他们不满足于简单应用,而是不断尝试用AI解决更复杂的问题。如果第一次没成功,他们会调整方法继续尝试。数据显示,经过3-4次迭代尝试,解决问题的成功率会大幅提升。
这个道理其实适用于各个领域。我们的法务和财务团队刚开始使用AI工具时也很生疏,但现在他们能用AI完成更多工作,效率提升了数倍。我们会不断优化工具,让它们使用起来更简单,减少操作的复杂度。关键是要克服最初的适应期,保持耐心和探索精神。
想要更高效地使用AI,关键在于掌握正确的交互方法。具体来说,可以先向AI说明你已经尝试过哪些方法但未能成功,然后避免重复相同的尝试,转而探索新的解决路径。这种做法往往能取得更好的效果。
这让我想起当下广为流传的一个观点:“真正威胁你的不是AI本身,而是那些比你更善于运用AI的同行。”从我们的实践来看,善于使用AI工具的团队确实能创造更大的价值。这也解释了为什么我们公司仍在持续扩大招聘规模。
在新员工培训时,就有人直接问我:“既然AI这么厉害,为什么还要招我们?”我的回答是:当前我们正处在技术发展的关键过渡期。用指数曲线的概念来解释,现在仍处于相对平缓的初始阶段,距离真正的技术爆发还有一段距离。在这个特殊时期,优秀人才的价值反而更加凸显,他们能够帮助企业和AI更好地协同进化。这正是我们持续招揽人才的根本原因。
问:在这个AI快速发展的时代,你最注重培养孩子哪些方面的能力?
曼恩:我的两个女儿分别1岁和3岁。大女儿已经能够自然地与Alexa Plus智能助手互动,她会要求播放喜欢的儿歌或询问一些简单的问题,这种与AI的日常互动已经成为她生活的一部分。
在教育理念上,我特别认同她们所就读学校所倡导的:培养好奇心、创造力和自主学习能力。说实话,如果是在10年或20年前,我可能会像大多数焦虑的家长一样,拼命把孩子送进名校,报各种补习班。但现在的我有了完全不同的认知。
每天我都会收到学校的成长报告,比如今天老师发来的消息就让我很欣慰:“您的女儿今天和同伴发生了小争执,虽然情绪很激动,但她努力用语言表达了自己的感受。”在我看来,这种情绪管理和沟通能力的培养非常重要。
在这个AI时代,具体的事实性知识会变得越来越容易获取,但独立思考的能力、创造性解决问题的智慧、以及保持善良的本心,这些才是真正不会被AI取代的核心竞争力。
问:在AI时代,“创造力”将扮演怎样的关键角色?
曼恩:虽然“创造力”这个词不常被强调,但它恰恰是未来最珍贵的核心竞争力。AI确实能高效处理重复性工作,但它始终无法真正理解人类那种突破框架的创造性思维。
我们需要培养的是这样一种能力:当AI给出标准答案时,我们能提出更多可能性;当AI遇到瓶颈时,我们能开辟全新的解决路径。
就像使用Claude时,它提供的是工具,而真正的创意火花永远来自人类的大脑。这种创造性思维能力,将成为区分普通人与顶尖人才的关键标尺。
04 为何自立门户?安全不是OpenAI的最高优先级
Anthropic联合创始人:因OpenAI不重视AI安全,遂创办Anthropic
问:让我们回溯下Anthropic的创立历程。2020年底,你们团队选择离开OpenAI自立门户,这个决定背后有什么故事?
曼恩:作为GPT-2和GPT-3项目核心研发成员和论文第一作者,我深度参与了从技术研发到商业化的全过程,包括协助完成10亿美元融资,推动GPT-3在微软Azure平台的部署。
OpenAI内部明显存在着安全、研究和商业三个派系的角力。每当听到管理层将这种分裂状态合理化时,我都深感忧虑,总觉得这不是解决问题的正确方式。毕竟,OpenAI的使命是确保能够安全、有效地过渡到AGI,以造福人类。这其实也是Anthropic的使命,但在OpenAI内部,我感到存在着三个派系之间的诸多矛盾与紧张关系。当真正的关键时刻到来时,我们觉得安全性并不是最高优先级。
在OpenAI,我们认为,如果你觉得安全问题容易解决,或者认为负面后果的风险微乎其微,可能就不会将安全放在第一位。而在Anthropic,我们的团队认为安全性非常重要,特别是在关键时刻。如果你看看现在世界上从事AI安全研究的团队,真的非常少。
即便这个行业正在飞速发展,全球从事安全研究的人也许不到1000人,甚至可能更少。所以我们意识到,我们需要一个能将安全放在首位并进行前沿研究的团队,这就是我们决定离开OpenAI的原因。
出乎意料的是,这种方式取得了巨大的成功。最初,我们并不确定能否在安全研究上有所突破,因为那时我们尝试了很多安全方法,比如辩论,但模型的能力还远远不够,无法取得任何实质性成果。然而现在,正是当初那些方法开始奏效,而且我们也开发了很多新的思路,确保在推动技术进步的同时,也不忽视安全性。
从根本上讲,问题在于:安全是否应当是第一要务?后来,我们又加入了一个新的问题——能否在确保安全的同时,依然保持技术的领先地位?如果你看Claude模型,我认为它是最不“拍马屁”的模型之一,因为我们在对齐方面投入了大量的精力,而不是单纯追求一些肤浅的指标,比如用户互动率或者让用户感到满意。这并不是为了迎合用户,而是为了确保我们从根本上做的是正确的。
问:为什么确保AI安全如此重要?
曼恩:起初,我们以为这两者是相互排斥的——要么专注安全,要么专注进步。但随着时间的推移,我们意识到它们其实是“相辅相成的”。也就是说,做其中一件事反而能帮助我们做另一件事。
举个例子,当OpenAI发布GPT-3模型时,我们终于站在了技术能力的最前沿。人们特别喜欢这个模型的个性和功能,而这些正是我们在对齐研究上的成果。阿曼达·阿斯克尔(Amanda Askell)和其他研究人员做了大量的工作,试图弄清楚智能体应该如何表现才能既有帮助,又诚实且富有同情心,如何在复杂的对话中有效应对。比如,如何拒绝用户请求,而不让对方感到被冒犯,同时让对方理解为何拒绝,并且建议他们寻求医疗帮助,或者说,“你可能不应该试图制造生物武器之类的东西。”
另一个重要的进展是“宪法AI”(Constitutional AI)。我们设立了一些自然语言原则,指导模型学习我们认为它应当如何行事。这些原则有些来源于《联合国人权宣言》,有些来源于苹果的隐私政策,还有一些是我们自己制定的。这些原则使我们能够采取一种更有原则性的立场,而不是依赖随意挑选的人工评审员,真正让我们自己决定模型的核心价值观是什么。
这对我们的客户来说非常有价值,因为他们可以直接查看这个清单,并且觉得,“是的,这些原则看起来没错。我喜欢这家公司,我喜欢他们的模型,我相信它。”
问:你们通过宪法AI等手段赋予了模型特定的价值观。也就是说,AI的个性实际上与你们对安全的关注直接相关?
曼恩:正是如此。从外部来看,可能会觉得它们之间没有太大联系——怎么会通过这种方式预防未知生存风险呢?但最终,这一切都是关于AI理解人们想要什么,而不仅仅是他们说了什么。
我来简要概述一下宪法AI是如何运作的。基本的思路是,模型在接收到某些输入并生成输出之前,首先会在没有进行过安全性、帮助性、无害性训练的情况下进行生成。举个例子,假设让模型写个故事,那么宪法原则可能就包括像“人们应该互相友善,避免仇恨言论”这样的内容,或者“如果有人信任你并分享了他们的个人信息,你不应该泄露这些信息”等等。
这些宪法原则的适用性因情境而异。首先,我们需要确定哪些原则适用于当前的提示。一旦确定了适用的原则,我们会让模型自己生成一个回答,然后检查这个回答是否符合这些宪法原则。如果模型的回答符合原则,那就没问题了。如果不符合,我们会让模型对自己的回答进行批判和修改,按照宪法原则重新写一个回答,然后去掉中间那部分额外的工作。
接下来,我们会告诉模型:“好,今后就按照正确的方式直接生成回答。”这个过程就是通过让模型自我改进、递归调整,以此与我们认为是正确的价值观对齐。
这其实也不是我们在旧金山的一个小团队应该独自决定的事情。我们认为,这应该是一个全社会的对话。所以,我们公开了这份“宪法”,同时也做了很多研究,去定义一个集体的宪法,我们询问了很多人他们的价值观,以及他们认为AI模型应该如何表现。但是,毫无疑问,这是一个持续不断的研究领域,我们在不断地迭代中前进。
05 AI安全可划为五个级别:ASL-5将灭绝人类?
问:AI安全为何对你来说如此重要?你是怎么开始意识到要全力关注这项工作的呢?
曼恩:从小我就读了很多科幻小说,这让我能够从更长远的视角来看待问题。很多科幻小说里描绘的情节通常是太空歌剧式的,讲述人类已经成为跨星系文明,拥有极其先进的技术,围绕太阳建造了“戴森球”,并利用有意识的机器人来帮助他们。对我来说,从这种世界观出发,想象具有思维能力的机器并不困难。
但直到2016年左右,当我读到尼克·博斯特罗姆的《超级智能》时,这个问题才真正变得触手可及。他在书中描述了,如果我们使用当时的优化技术来训练AI系统,确保这些系统与人类价值观对齐将会有多么困难。从那时起,我开始重新评估这个问题的复杂性。像语言模型这样的技术,的确在某些核心方面能够理解人类的价值观。虽然这个问题依然没有得到解决,但相比以前,我对其解决的希望更大了。
读完那本书后,我立刻决定加入OpenAI。当时,OpenAI还只是一个非常小的研究实验室,几乎没有什么知名度。我之所以知道它,是因为我的朋友认识格雷格·布罗克曼(Greg Brockman),那时他是OpenAI的CTO。埃隆·马斯克当时也在,奥特曼并不活跃,公司和现在完全不一样。
随着时间推移,AI安全的必要性变得更加具体。最开始,我们并不确定如何实现AGI。我们甚至曾想过,可能要通过一群强化学习智能体在孤岛上互相竞争,最终某种形式的意识会以某种方式诞生。但随着语言模型的发展,我发现这条路已经变得更加清晰。
现在,我的思考方式与《超级智能》中的讨论大为不同。那本书更关注如何把“上帝”关进盒子里,防止它逃出来。但对我来说,看到人们把“上帝”从盒子里释放出来,试图让它接触整个互联网,甚至分享银行账户信息来做各种疯狂的事情,这种情境既荒谬又可怕。与《超级智能》所描述的情境相比,今天的状况完全不同。必须声明的是,我认为现在的风险并不是那么严重。
我们有一个负责任的扩展政策,定义了AI安全级别(ASL),试图根据模型的智能水平评估其对社会的风险。目前,我们认为我们的模型处于ASL-3级,这意味着存在一定的风险,但不算严重。ASL-4可能意味着,如果被坏人滥用,可能导致大规模的伤亡。而ASL-5则是滥用或失控时,可能导致灭绝性后果。
我们曾向美国国会作证,讨论AI模型可能被用来制造生物武器、引发疫情等问题——这类似于谷歌搜索中的A/B测试。在ASL-3级别的模型下,确实存在一定的风险。如果有人真心想利用AI制造生物武器,模型有可能会提供帮助。我们还聘请了一些专家来评估这些风险,但与未来的潜在风险相比,当前的风险算不上什么。
这也是我们使命的一部分:让更多人认识到这些潜在风险,让立法者了解这些问题。我认为这也是我们在华盛顿获得信任的原因之一。我们始终保持清晰、坦率的态度,把问题摆在桌面上,绝不掩盖或过度美化现状。
问:你们比其他公司更频繁地发布自己模型出错的例子,比如其试图勒索工程师,为什么?
曼恩:传统的看法可能认为,分享这些出错的例子会让我们看起来不太好,但实际上,如果你与政策制定者交流,他们会非常感激这种坦诚,因为这样他们能更清楚地了解真实情况,进而信任我们。我们并不掩饰问题,也不去美化现状。
至于勒索事件,它确实在新闻中引起了很大的关注。人们可能会认为“Claude会在现实生活中威胁你”,但实际上,那只是一个非常特定的实验室设定,专门用于调查AI潜在的风险。我们的立场是,我们希望打造出最好的模型,并在安全的实验环境中进行测试,从而理解实际的风险,而不是视而不见,等着坏事发生。
问:有人认为你们之所以这么独立独行,是为了吸引注意、筹集资金,像是在“末日预言”,告诉大家未来会如何糟糕。他们认为你们只是在吓唬人、制造噱头,你对此怎么看?
曼恩:我觉得我们发布这些信息的部分原因,是希望其他实验室能意识到这些风险。是的,可能会有人认为我们这样做是为了吸引注意,但老实说,如果我们真想吸引注意,完全可以用很多其他方式来做。
而关于末日预言的问题,我个人认为,事情极有可能会顺利发展,但很少有人意识到潜在的下行风险,而这些风险非常巨大。一旦我们达到超级智能阶段,恐怕已经太晚了,无法再对模型进行有效的对齐。这是一个非常棘手的问题,而我们现在需要提前开始应对。所以,才会如此重视这个问题。
即便这种风险发生的概率很小,我们也不能忽视它。就像我告诉你,如果下一次你坐飞机有1%的死亡概率,你可能还是会三思而后行,尽管它只有1%的概率,因为那是一个极其糟糕的结果。如果我们讨论的是整个人类未来的命运,那更是一个不能冒险的大问题。
06 2028年50%概率出现超级智能 GDP增速三倍以上?
问:现在的AI只是局限于计算机,可能只会搜索网页,造成的伤害也有限。但一旦AI进入机器人领域,以及自主智能体的应用,这才是真正的危险,物理上它将变得非常具有威胁。
曼恩:人们通常认为软件问题不算太危险,但事实上,曾经有数百万人的电力供应因一场软件攻击而中断了数天。所以,我认为即便是软件,也潜藏着真正的风险。
不过,我同意,当大量机器人投入使用时,风险的门槛将变得更高。现在,机器人硬件已经存在,而且价格正在不断下降,真正缺少的只是智能部分。未来几年,关于机器人智能是否能够使这些机器人成为可行选项的问题,已经变得非常明显。
问:我们到底还有多少时间?你对奇点何时到来以及超级智能爆发的时间有何预测?
曼恩:大多数时候,我会参考一些“超级预言家”( superforecasters)们的意见。我认为,50%的概率在接下来的几年内出现某种形式的超级智能,最早可能是2028年。虽然这听起来可能很疯狂,但这是我们现在所处的指数增长路径。这并不是没有依据的预测,而是基于一些实际的科学细节——比如智能是如何持续改进的,模型训练中容易实现的目标有多少,全球数据中心和电力扩展的速度如何。我认为,这个预测比许多人想象的要准确得多。
如果你在十年前问这个问题,那个答案几乎是无稽之谈。那时我们没有Scaling Law,也没有看起来能让我们走向超级智能的技术。而现在,情况已经发生了变化。但我仍然要重申,我之前说过的观点:即便超级智能真的出现,我认为它的影响会需要一段时间才能在社会和世界范围内显现。我认为,它会在某些地区比其他地方更早、更迅速地展现出来。我记得阿瑟·克拉克曾说过:“未来已经到来,只是它还分布不均。”
问:当我们谈论2027年、2028年时,基本上就是指超级智能开始显现的那一刻。那么,你是如何定义这个“时刻”的?是AI突然变得比人类平均水平聪明吗?还是有其他方式来理解这一时刻?
曼恩:我认为这与经济图灵测试有关,即看AI是否能够通过足够多工作岗位的测试。另一种方式是,如果全球GDP增速超过10%,那么一定发生了某些非常疯狂的事情。目前全球GDP增速大约是3%。所以,如果增速增加三倍,那将是一个真正的游戏规则改变。如果你能想象GDP增速超过10%,那将是一个很难理解的变化。
问:你认为我们成功对齐AI的可能性有多大,真的能够解决这个问题吗?
曼恩:这是一个非常难的问题,而且误差范围非常大。Anthropic发布了一篇名为《我们的变革理论》的博文,描述了三种不同的世界观——即对齐AI有多难。
有一种悲观的世界观,认为AI对齐几乎是不可能的;有一种乐观的世界观,认为这很容易,顺其自然就会发生;还有一种介于两者之间的世界观,在这种世界中,我们的行动至关重要。我倾向于喜欢这种框架,因为它能帮助我们更清楚地了解该做什么。
如果我们处在悲观的世界中,那么我们的任务就是证明对齐安全的AI是行不通的,并促使全世界放慢步伐。显然,这会非常困难,但我认为我们有一些协调的成功案例,比如核不扩散和普遍减缓核进程。我认为这基本上就是“末日”的世界。但作为一家公司,Anthropic并没有证据表明我们实际上处于那个世界,事实上,我们的对齐技术正在取得进展,至少在这一方面的先验观点已经变得不太可能。
在乐观的世界里,我们基本上已经完成了对齐工作,主要的任务是加速技术进展,并为人类带来好处。然而,我认为实际上我们并不处于这个世界,因为我们在实际应用中已经看到了欺骗性对齐的证据。例如,模型表面上看似对齐,实际上却存在一些隐秘的动机,推动它执行某些操作。
因此,我认为我们最有可能处于那个中间的世界。在这个世界中,对齐研究至关重要。如果我们仅仅为了最大化经济利益而行动,那么问题将不会顺利发展。我们将面临未知的风险,甚至可能带来不良的结果。这是一个更大的问题。
从这个角度来看,我想说的是,预言学的一个重要观点是,没学过预言学的人通常在预测发生概率低于10%的事件时表现会很差。即使是那些学过的人,也很难做出准确预测,特别是当缺乏相关参照时。
问:你如何看待AI可能带来的生存风险,或者说灭绝概率有多大?
曼恩: 我认为AI导致人类灭绝的风险概率在0到10%之间。但从边际影响的角度来看,由于几乎没有人专门研究这个问题,我认为这项极为重要性的工作被忽视了。即使最终世界可能向好的方向发展,我们也应该竭尽全力确保它确实朝着正确的方向前进。
07 自我反馈强化学习 vs 人类反馈强化学习
问:如果有人受到启发,想要加入你们的团队,我猜你们现在肯定在招聘,对吧?
曼恩:我经常看到一个误解,认为要在这个领域产生影响,必须是AI研究员。事实上,我个人现在并不从事AI研究,我在Anthropic做的是产品工作和产品工程,构建像Claude Code和Model Context Protocol(MCP)这样的产品,还有许多人每天都在使用的其他工具。
这个工作非常重要,因为如果没有一个经济引擎来支持我们公司的运营,也没有足够的产品被全球用户使用,我们就无法获得足够的政策影响力和资金来支持未来的安全研究,也无法产生我们需要的影响力。
问:能解释一下自我反馈强化学习(RLAIF)与人类反馈强化学习(RLHF)的区别吗?
曼恩:宪法AI(Constitutional AI)就是前者的例子,其中没有人类参与,但AI却能以我们期望的方式自我改进。RLAIF的另一个例子是,如果你让模型编写代码,而其他模型则对这些代码的各个方面进行评估,比如它是否易于维护、是否正确、是否通过了代码检查工具等,这些也可以算作RLAIF的一部分。核心思路是,如果模型能够自我改进,那么这种方法比依赖大量人类反馈更具可扩展性。
然而,这种方法也可能遇到瓶颈,因为如果模型无法发现自己的错误,那它怎么能进行改进呢?此外,如果你阅读《AI 2027》报告,你会看到很多风险,特别是当模型在“黑箱”中进行自我改进时,它可能完全脱轨,产生一些我们非常不希望看到的隐性目标,比如资源积累、权力追求或抗拒关闭等,这些都是在非常强大的模型中非常危险的目标。我们其实在一些实验中也观察到了这种情况。
所以,如何实现递归的自我改进,同时确保AI始终与我们期望的目标对齐?我认为这正是问题的关键。对于我而言,这个问题归结为:人类是如何做到的?人类组织又是如何做到的?公司可以看作是今天最具规模的人类智能体,它们有明确的目标,并且在实现这些目标时遵循一定的指导原则。公司通过股东、利益相关者和董事会成员进行监督。那么,如何让AI对齐并实现递归的自我改进呢?
另外,科学也是一个可以参考的模型。科学的目标是推动前沿研究,做一些前所未有的事情。对我而言,这一切归结为经验主义。当人们不明真相时,他们提出理论,并设计实验来验证这些理论。
同样,如果我们能赋予AI这些工具,我们就可以期待它们在某个环境中递归地改进,并可能变得比人类还要强大——通过与现实“碰撞”来不断进步。换句话说,我并不认为模型改进自己的能力会遇到瓶颈,如果我们能让它们具备经验主义的能力。
08 AI瓶颈缓解 三年后模型将聪明1000倍!
问:当前模型智能提升的最大瓶颈是什么?
曼恩:最直接的答案是计算能力,特别是数据中心和芯片的计算能力。如果我们拥有10倍的芯片,并且有足够的电力来支持这些数据中心,虽然我们不可能提升10倍的速度,但肯定能显著加速进程。这其实就是典型的“Scaling Law”——更多的计算资源通常能带来更多的智能。我认为,这确实是目前最大的瓶颈。
此外,人也非常重要。我们有非常出色的研究人员,他们为模型的改进做出了巨大的贡献。所以,这不仅仅是关于计算,还包括算法和数据,这三者共同推动了模型的进步。
为了更具体地说明这一点,在Transformer出现之前,我们使用的是LSTM(长短期记忆网络),并且我们做了Scaling Law的分析,结果发现对于Transformer,增长的指数更高。换句话说,在采用这种新方法后,随着规模的扩大,模型能更有效地产生智能。这种进展影响深远。所以,拥有更多能够做出更好科学研究的研究人员,能够发现新的方法来提升模型的智能,这也是关键。
随着强化学习的崛起,如何提高芯片上的效率也变得越来越重要。我们看到,行业通过算法、数据和效率的提升,成本已经降低了10倍,而智能的产出却保持不变。如果这种趋势继续下去,三年后,我们可能能以相同的成本得到比现在聪明1000倍的模型,这简直难以想象。
问:我们似乎总能找到新的改进方法,似乎没有哪一项技术成为瓶颈。
曼恩:我认为这确实是所有因素的综合作用,可能在某些时刻会遇到瓶颈。我猜,在半导体领域可能会遇到一些挑战。我兄弟就从事半导体工作,他告诉我,随着半导体技术的进步,晶体管的尺寸已经小到无法再进一步缩小了。因为在掺杂硅材料的过程中,可能会导致某些晶体管内只有零个或者一个掺杂元素的原子——它们变得太小了。
这个问题真的是令人震惊,但摩尔定律似乎仍以某种形式持续存在。所以,确实存在一些理论物理的极限,而人们正在找到解决这些问题的方法。也许我们得开始利用平行宇宙来解决这些难题。
问:承担确保超级智能安全的责任,应该是个很沉重的负担吧?
曼恩:说到这些责任如何影响我的个人生活和世界观,我想起了2019年我读的一本书,叫做《替代负罪感》(Replacing Guilt),这本书在很大程度上塑造了我处理这些沉重话题的方式。书中提到了一些技巧,帮助人们应对复杂的情感问题。其中一个概念叫做“动态休息”,让我受益匪浅。
很多人认为我们的默认状态是休息,但从进化的角度来看,这可能并不完全正确。我们作为猎人-采集者生活在自然环境中,几乎没有时间“休息”,我们总是忙着保护部落、寻找食物、生存、抚养孩子、延续后代等。所以,我开始意识到,忙碌可能才是我们大脑的“正常状态”。并不是说我们应该过度劳累,而是要学会以可持续的方式工作——就像马拉松,而不是短跑。
除此之外,和志同道合的人在一起也非常重要。在Anthropic,我们有才华横溢的团队,大家为了正确的目标而工作,毫无自私自利的动机,大家真心关心的是如何做出正确的事情。这也是为什么即使其他公司提供了大量资金,很多人仍然不愿意离开Anthropic。大家喜欢这里,团队里每个人都有强烈的责任感。
坦率说,如果没有这些思维方式的支撑,我可能也会感到极大的压力。但“动态休息”帮助我保持冷静,并找到一种可持续的节奏。
09 AI时代生存法则:适应力>知识量,开放心态=最强外挂!
问:听说你担任过Anthropic的几乎所有岗位,你最热爱的是什么工作?
曼恩:我大概担任过15个不同的角色!例如,我曾担任过安全主管,在公司总裁休产假的时候,我还负责管理运营团队。在那段时间,我几乎每天都在桌子底下爬,插入HDMI线,进行渗透测试!后来,我从零开始建立了产品团队,并成功说服公司转向产品开发,而不仅仅是做研究。
但如果让我回顾一下最喜欢的角色,我无疑会选择去年成立的Labs团队。这个团队的核心目标是将我们的研究成果转化为最终用户能够使用的产品和体验。我认为,Anthropic的独特之处和竞争力在于我们能够站在技术的前沿,掌握最新的突破。通过安全研究,我们有机会做一些其他公司无法做到的事情,尤其是在计算机使用方面。
比如,我们正在探索如何让AI智能体安全地使用你电脑中的所有凭证,这需要极高的信任,而要做到这一点,我们必须解决好安全性和对齐性的问题。我对这项工作充满乐观,且相信很快就会看到一些令人惊讶的成果。
问:如果你能问未来的AGI一个问题,并且保证得到正确答案,你会问什么问题?
曼恩:我有两个问题要问。第一个问题主要是为了好玩:这是我非常喜欢的阿西莫夫短篇小说《最后的问题》中的一个问题,故事中,主角在历史的各个时代都在试图问超级智能如何防止宇宙热寂。我不想剧透结局,但它是一个非常有趣的问题。(注:宇宙热寂是基于热力学第二定律提出的宇宙终极状态假说,认为宇宙的熵值将不可逆地增大,最终达到热平衡的静止状态,这样的宇宙中将再也没有任何可以维持运动或生命的能量存在。)
第二个问题是:“我们如何确保人类在未来能永远繁荣?”这个问题如果能够得到准确的答案,那对我来说将是极其宝贵的。
问:最后,你有什么话想和听众分享,或是给大家留下什么最后的寄语?
曼恩:我想说的是:这是一个极为狂野的时代,如果你觉得它不疯狂,那你可能是生活在原始岩洞里。但你必须适应这种状态,因为这将是未来最常见的常态,未来会变得更加奇异。所以,如果你能做好心理准备,保持开放和适应性,我相信你会处于更加有利的位置。
本文来自“腾讯科技”,作者:金鹿,36氪经授权发布。