基础大模型的未来属于闭源?

神译局·2024年05月31日 15:06
开源与闭源AI竞争,闭源可能胜出。

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:开源造就了软件的繁荣。现在的人工智能也形成了开源和闭源两个阵营,那获胜的是谁呢?有人从成本消耗、数据获取、安全等层面提出,闭源将最后胜出。如果你是开源支持者,该如何反驳这种看法呢?文章来自编译。

关于基础模型的未来,有两种看似矛盾但都很流行的说法。在其中一个未来里,人工智能会中心化:规模法则(scaling laws)会保持不变,价值主要被规模化、闭源的玩家攫取。在另一种未来里,人工智能会去中心化:基础模型没有护城河,开源将赶上闭源,我们会拥有众多相互竞争的模型。

现在看来,这两种说法似乎都不错。我们既有强大的封闭模型,但神圣不可侵犯的开源模型生态体系也在蓬勃发展。Llama-3 最近让开源也进入到类 GPT-4 模型的版图。与此同时,在希望获得资助的开发者、拥抱发行文化的学者、担心言论集中控制以及监管俘获的自由主义者、不希望对手赢得人工智能的马斯克以及不想受制于另一个技术平台的扎克伯格这些人中间,形成了一个不同寻常的开源联盟。

作为现代软件的催化剂,开源在科技领域占据着宝贵的一席之地。东西免费、控制去中心化,言论自由,这些谁敢有争议?但宝座只有一个,开源与闭源人工智能不可能都坐上去:如果中心化的力量维持,规模优势将不断扩大,并将开源替代品抛在身后。

尽管最近取得了进展,大家也在不断为开源人工智能喝彩,但开源人工智能仍然会耗尽模型开发者的资金、是开发者与消费者不得已的选择,并会对国家安全构成威胁。未来十年,闭源模型会创造出更多的经济与消费者价值。

模型开发者

开源软件最初是一种慈善行为——全世界都应该感谢 Linus Torvalds 以及 Fabrice Bellard 等人,他们给人类带来了 Linux、Git 以及 FFmpeg 等。由于免费的东西很受欢迎,开源成为了一种很好的免费增值营销策略(想想看 Databricks 或 Mistral),有时甚至本身就是一种市场均衡(比方说,Android 就是廉价的智能手机选择,并加强了谷歌的搜索垄断地位)。

通过开源获得免费营销的公司最终也得屈服于商业的物理定律:Red Hat 把 CentOS 隐藏在订阅服务背后,ElasticSearch 在意外引发竞争后变更了许可,而 Databricks 拥有加速 Apache Spark 的 IP。

与早期软件时代的慈善工作不同,如今开源是由有自身目标的企业资助的。鉴于 Meta 的资金实力,它已经成为主要的开源大模型开发者,开源人工智能已成为 Meta AI 的代名词。因此,对于开源人工智能来说,一个关键问题是,Meta 在玩什么游戏?扎克伯格最近在播客解释了 Meta 的开源策略:

  1. 过去 20 年来,苹果的封闭让他深受其害,他不想在下一次平台变革时遭受同样的命运。把互补品商品化是更安全的做法。

  2. 他喜欢打造炫酷的产品,而廉价、高性能的人工智能会强化 Facebook 与 Instagram。如果人工智能助手会成为下一个平台,那么就有一定的看涨期权价值。

  3. 他购了数十万块 H100,用来改进各个产品的社交推送算法,而这似乎是利用这些额外功能的好方法。

这一切都是有道理的,Llama 一直是 Facebook 出色的开发者营销工具。但扎克伯格也多次暗示,从成本或安全角度来看,开源人工智能到了一定时候就行不通了。当被问及 Meta 是否会将未来价值 100 亿美元的模型开源出来时,对方的回答是“只要能帮到我们就行”。到了一定时候,他们会将重心从慈善转向赚钱。

Meta跟别的模型提供商不一样,他们不是靠卖 API 来让你访问他们的模型。因此,尽管只要方便他们都会将模型开源,但此后模型的改进就只能靠开发者自己了。

这就引出了一个问题:如果 Meta 只是出于自身利益而开源的话,那 Meta 停止开源的临界点是什么时候?比你想象的要快:

  • 指数级的数据:前沿模型要用互联网语料库来训练的,但这种数据源属于商品——未来十年模型的差异化要靠专有数据,或者是通过模型使用,或者利用私有数据源。

  • 开源模型不能在生产使用与模型训练之间形成闭环的反馈回路,所以一切增量训练数据都要开发商去买单,而闭源模型则可利用增量使用数据来产生价值复利。如果 Meta 是利用社交图谱或用户反馈来让自己的模型差异化的话,他们会希望通过闭源来获取这种价值,而不是再大方地向世界分享。

  • 指数级的资本支出:一个落后的模型Meta 只需要在400 亿美元的资本支出当中腾出几个百分点就能搞成,很容易开源,没人会对此质疑。但一旦模型训练的资本支出达到一百亿美元或更多时,股东们就会希望这笔支出有明确的投资回报率(到了一定规模时元宇宙也会引起类似的问题)。

  • 模型质量在Meta内部会收益递减:虽说效果比不上闭源的尖端模型,但Meta 开发开源人工智能模型也能带来巨大的前期收益。有很多小型的人工智能工作负载(比如 feed 算法、推荐和图像生成),Meta 不想像苹果那样依赖第三方提供商。

但目前尚不清楚 Facebook 产品能不能从质量接近 AGI的模型中收获大量好处。同样有可能的是,Meta 的模型改进会特别针对自身的内部用例。这就是跟用户对不齐之处:如果通用、前沿的模型投资回报率对 Meta 的产品没有意义的话,他们肯定是不会替开源社区开发的。

扎克伯格可不是在做慈善,他是精明的资本家。尽管 Meta 可以证明扩大渐进性模型的资本支出是出于自身目的,但随着时间的推移,他们的开源战略只会变得越来越不合理。

开发者与消费者

作为选择开源模型的开发者,在成本、模型质量以及数据安全方面你得到了什么?

成本:开源模型给人一种免费的假象。但开发者还需要承担推理的成本,这些成本往往比同类的 LLM API 调用更贵:要么你得付费给中间人来管理 GPU 和托管模型,要么自己得支付 GPU 折旧、电力以及停机的直接成本。只有大型企业这种级别才能摊销这些固定成本;对于云基础设施等,即便是最大的财富500强公司也会用 AWS 和 Azure 等的第三方云托管。未优化的 GPU 支出会因规模不经济(规模经济的反面)而惩罚你。

对于产品弱一点,有付费墙的情况,某些注重成本的企业或消费者也能忍受;他们纯粹就想成本优化。但闭源成本曲线仍在大幅下降,因此尚不清楚开源在中期内是不是会更便宜。互联网公司过去常常把一半的预算都用在买服务器机架了,直到 AWS 解决了云资本支出问题;闭源模型提供商对人工智能也采取了同样的做法。

在资本主义的美国,免费从来都不是真正的免费,所以你应该想想自己最终怎么赚钱。这不是 Linux,没有一个开发者会将产品作为礼物送给人类;这些都是烧钱的事业,唯一的出路就是最终赚到钱。你可能会适时宣布要做闭源互补品。每家开源公司最终都会推出付费产品;甚至 Android 最终也会通过 Google Play 及搜索实现盈利。

即便自托管开源模型到了某个盈亏平衡点之上时会略微便宜些,但边际成本优化在周期的这个阶段也不是关注的重点:对于大多数应用而言,妨碍采用的是功能,而不是价格。

模型质量:跟住房、医疗保健和教育一样,付费版通常好过免费版。就算在软件领域,开源赢家也很少是最好的产品:Android 比 iOS 差,OpenOffice 比 Office 或 Google Docs 差,Godot 比 Unity 差,FreeCAD 比 SolidWorks 差。一个推论是,专注于最佳平台的工程师赚得更多;他们更有可能打造出尖端产品。

一年过去了,人人都为 Llama-3 与 GPT-4 不相上下而鼓与呼。iOS 与 Android 或 MacOS 与消费者 Linux 之间的产品质量差距长期以来一直都很大,因为最好的软件创建者跟付费客户是保持一致的。当你选择闭源模型时,你不是在对模型质量做出一瞬间的决定;你是在为未来的模型改进付费,而它的路线图会与付费客户保持一致。

大多数人关注的是上一场战争(GPT-4),而不是下一场战争。因此,虽然开源模型是生态体系健康的一部分,但那在很大程度上是向后看。我预计,在 GPU 和数据的资本支出达到数百亿美元(与半导体制造业相当)之前,能力都还有可观的改进空间。关键的开源模型开发者能赚到足够的收入来证明花这么多钱是合理的吗?

数据安全:部分企业需要极高的数据安全性:如金融服务、医疗保健、法律等。但我不确定在本地或通过第三方云托管来用开源模型是不是真的比在云端使用第三方的 LLM 更安全;那是早期互联网时代的过时信念,那时候本地数据中心是数据安全的诺克斯堡。

作为客户,我更信任微软在医疗数据安全方面的实力,相比之下,让自己的 IT 部门管理数据中心才更不靠谱。现而今这道鸿沟已经被跨越:当厌恶风险的财富 500 强企业有 65% 已经在用 Azure OpenAI 时,你不禁会想,对于 LLM 云服务来说太过敏感的数据又该由谁来处理呢?

国家安全

就算模型开发者最终开发出来的开源模型具有经济意义,那是不是就该这样做呢?杨立昆(Yann LeCun)等人就声称开源人工智能比闭源的更安全。这让我怀疑他是不是真心相信 Meta 的人工智能能力。算力更大、数据更多、自主工具使用能力更强显然很危险,这是合理推断。

呼吁重视安全似乎有些夸张,但过去五年的地缘政治已经证实,并不是所有人都站在同一战线。美国以外每个国家都希望动摇我们的闭源模型提供商:欧洲不希望美国又一次站上科技浪潮的风头浪尖,中国希望获得免费的模型权重来训练自己的前沿模型,流氓国家希望用未经过滤和无法追踪的人工智能来满足其军事和经济利益。

语言模型尚处在起步阶段,但已经能指导生成网络攻击、做生物武器研究和炸弹组装了。是,谷歌也会搜出危险信息,但 LLM 的自动化才是危险所在:流氓模型可不只是像谷歌搜索结果那样解释什么是网络攻击概念那么简单,而是可以编写代码、测试代码并大规模部署代码——从而让原本很难的犯罪活动变得简单。

关于开源有个常见说法,即去中心化控制的模型比信任中心化的机构要好。但这只是美国人的奢侈想法,这项技术的影响要深远得多。

长期以来,新技术一直是打破全球力量平衡的要素。作为一项具有军事影响的技术,不该把人工智能不当一回事。

结论

人们对开源人工智能抱有不同程度的乐观态度:很多人只是认为开源对人类有益,其他人则声称建立开源模型是一种很好的商业策略,还有人持极端观点,认为应该强迫领先的模型提供商开源他们的技术。但这三个阵营都靠不住:开源模型会帮助对手,还会让模型构建者和开发者的投资回报率越来越差。

我承认,自己对许多开源倡导者的身份有些过敏。虽然早期的人工智能无疑受益于在其商业价值得到充分认可之前公开发表的研究,但学术界似乎并不适合推动前沿研究向前发展。斯坦福的 NLP 实验室只有 64 颗 GPU,甚至连李飞飞都承认,相对于产业界,学术界正在“掉向深渊”。

美国在科技领域的成功遭到了那些错失机会的人无休止的批评,但我们却轻松赢得了上一波科技浪潮,因为美国资本主义长期内是可以将用户与公司对齐的。如果没有获得适当激励的公司不懈和持续的执着,从长远看软件就没法推进前沿。在资本密集型基础模型的背景下,情况更是如此。

在需要规模较小、功能较少且可配置模型的地方(比方说企业工作负载),开源会有一席之地,但人工智能的大部分价值创造和获取将会发生在使用前沿能力的地方。发布开源模型的冲动有其合理性,因为这是一种免费的营销策略,也是将补充产品商品化的途径。但随着开源投资回报率持续下降,开源模型提供商会在资本支出战中落败。

至于那些即将投入数百亿美元却没有明确商业模式的公司,以及押注这个生态体系的开发者,我祝他们好运,但未来十年,获胜的模型应该而且将是闭源的。

译者:boxi。

+1
48

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业