为什么说GPT-4o并不惊艳?

周健@澜码科技·2024年05月15日 15:22
“GPT-4o 很不错,但是基本都在意料之中”

5月14日凌晨,OpenAI发布最新旗舰模型GPT-4o 。o即Omni(全能的),代表着GPT-4o 可以接收文本、音频和图像的任意组合作为输入,并实时生成上述几种媒介的任意组合输出。

图片来源:OpenAI 官网

 

在我看来,GPT-4o 相比起之前的大模型,进步主要体现在两方面——多模态能力和实时交互能力,这是两个很关键的进步。

多模态能力不必多说,即文本、图像、音频的多样化组合。实时交互能力则更为关键,从OpenAI的现场演示来看,GPT-4o 已经解决了短时记忆问题,具备以往大语言模型和多模态模型没有的时间概念,并能够在对话中感知用户情绪、Follow指令,甚至被人打断,这本质上就是模型实时交互能力的提升,这也是很多人看过演示视频后,高赞GPT-4o让电影《Her》中的人工智能从科幻走向了现实的原因。

从产业层面讲,一方面,这会颠覆部分应用,倒逼部分公司重新寻找护城河。对会议纪要、学习机、智能语音助手、智能外呼等公司来说,即便现在成本上还没有打平,但也只是时间问题。

另一方面,多模态和实时交互能力提升会扩展可交互的媒介,对游戏、教育、营销行业带来很大改变。纵观人类信息传播发展史,人类的交互媒介从口语发展到文字、图像,再到互联网和移动互联网时代的多媒体内容,乃至未来的数字人,尽管目前还未有“人”的形象,但有了可交互的语音助手,未来一定会发展为可交互的数字人,拥有更多人的基本属性。

以上是我作为大模型行业从业者看到GPT-4o最值得关注的进步。而如果更“严苛”一些,从底层模型能力来看,GPT-4o 只具备短时记忆能力,在长时记忆、社会智力和逻辑推理方面的能力并没有显著提升。

图片来源:OpenAI 官网

第一,发布会所展示的仅仅是两三人之间的短对话,GPT-4o 是否具备社会智力我是持怀疑态度的,换言之能否参与团队的日常工作并对成员的个体状态做出判断,这个虽然不好直接展示,但我认为目前GPT-4o是无法完成的。

第二是逻辑推理能力。更强的逻辑推理能力意味着更强的反思能力,GPT-4o 在这一层面并没显现出质的提升。

虽然GPT-4o 看起来像是有了人类的行为,可以使用各种工具,但其实仍是“缸中之脑”。举例来说,人类拿到一个新的手机,肯定会去探索一番,就知道手机该怎么用了。GPT-4o作为人类的助手,也应该知道在用户的手机、PC上哪些工具可以被使用,然后对其进行测试,调整对工具的理解以更好的使用。但目前来看,GPT-4o上并不具备这项能力。

所以,在我看来,GPT-4o 只是用Scaling Law “堆”了大量算力和数据,并不像 GPT-4 之于GPT-3.5那样有颠覆性地提升。如果用一句话点评,那就是:GPT-4o 很不错,但基本都在意料之中,没有很惊艳。

那么GPT-4o的发布会“吃掉”Agent吗?我的答案是否定的。

构建企业级Agent强调的是对专家知识、专家经验的利用,大模型能力提升,会强化Agent平台的私有化部署能力,帮助用户更好地复刻专家能力,所以底层大模型能力越强、Agent平台公司会越强,GPT-4o 的发布对Agent公司而言是大利好。

正如我们一直强调的,AI Agent =planning +memory+ tool use+LLM(large language model),在大语言模型应用落地过程中,AI Agent 所不能被取代的价值还在于计划、长时记忆等方面。

比如,让你的数字助手去制定一个工作或出行计划时,即便是有了GPT-4o,也依然需要一个关于你个体的领域模型,集合你过去的历史数据和经验来做计划和思考。而且我们一直强调,AI Agent 需要在环境中主动观测所有要素的状态,这远比由人类告知数字助手这些要素状态的信息更为细腻。

我们过去的实践已经证明,当Agent 获得了相应的专家知识与经验后,一个类似人类的数字员工是成立的,只是目前成本还比较高。但随着技术迭代,算力成本降低、智能程度提升,我相信未来是可以突破成本问题、应用这项能力的。

+1
79

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

蜂鸟将推进数字化能力和“水电煤”平台建设,持续为生态做好支持与服务,将“蜂盛”计划进行到底。

2024-05-15

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业