很多AI产品经理,都被LLM骗了,忽略了世界模型
回国之后,带着团队仍然紧密的开始推进研发,我发现很多身边的AI产品经理已经越来越被AI带偏了,甚至是AI替代人类,在基础医疗是文本数据下,大语言模型永远不可能替代人类。
因为人类是空间物种,能够在空间里面感知空间的速度、相对距离之外,还有眼球与体态来与这个世界进行交互。
而要人形机器人达到这个地步,就首先要空间智能,也就是世界模型为底座,并且还能够有与这个世界的交互基础行为数据,才能够训练为世界模型,而在vision Pro 与AndroidXR设备,不仅有空间数据还有眼球追踪、头部、以及身体数据,可以反馈人类与世界的交互过程。
而这个叫做基于世界模型的人类世界交互模型。
大语言模型天然的数据缺陷,以及巨高的数据成本
从现在来看,大语言模型天然缺失空间数据,他们没有办法去理解空间之间的相对位置、与世界的相关物理距离,更不能理解与人类行为与世界空间的感知,这就导致现在你看到现在大语言模型生成的视频模型,就有时候会非常奇怪,出现一些非常奇怪的行为与动作甚至是肢体。
同时在YouTube等这些互联网数据,用来训练空间数据成本也巨高,需要将人工生成3D的,再将其标注,完成空间数据。
而在vision Pro与AndroidXR这些操作系统里,有天然的mesh网格数据,也有眼球与肢体,可以天然的标注训练人类与这个世界的交互、以及当前的状态响应数据。
现在机器人的泛化能力很差:没有通用世界模型
因为机器人都是来自大语言模型以及某个人类行为动作的反复学习,但是因为数据量较少,他没有办法泛化到其他通用上,让机器人从一个房间换到一个陌生房间,他就不会了。
这就是LLM的局限,也是数据量、数据质量都不够的情况。
vision Pro的竞争对手XREAL project aura正式上线
在写这篇文章的时候,现在国产的空间计算眼镜第一台,XREAL总算上线了,虽然没有在国内售卖,但是也是第一台国产的空间计算设备,并且还是框架眼镜。
基于AndroidXR的空间计算眼镜,不仅可以用手势与头部追踪,主要是真的可以实现vision Pro几乎一切的功能,当然现在分辨率与计算能力还比不上苹果M5芯片性能,但是已经可以达到和M2一样的性能价值。
而今年还有其他的品牌眼镜,比如VIVO、PICO swan 都会逐步上市,这些眼镜也将开始国产空间计算的热度与浪潮
将急速增加世界模型的训练速度,因为照理说作为开发者都会有这些空间数据以及人类交互数据,这些数据都将成为世界模型的一部分。
并且硬件厂商肯定不会去抢开发者生态,终端厂商只要做好自己的终端即可。
只是比较遗憾的是,现在几乎没有产品经理知道这个,如果你关注,希望你可以更早的开始空间计算!
本文来自微信公众号“Kevin改变世界的点滴”(ID:Kevingbsjddd),作者:Kevin那些事儿,36氪经授权发布。















