详解苹果对个人计算的未来愿景:Apple Vision
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:在最近的 WWDC 上,大家千呼万唤的苹果新硬件终于面世了。苹果确实很擅长给产品取名,Apple Vision 这个产品名字体现了苹果一如既往的优雅。而且,它不仅体现出产品的功能,也体现了苹果对个人计算设备的愿景(vision)。本文详细分析了这款新发布的混合现实产品及有关计算的未来愿景,文章来自编译。
产品的名字确实起得好,堪称苹果史上最佳之一:Vision 是对产品的描述,是对用例的渴望,也是对我们正在建设的那种社会的批判,这背后苹果的领导作用比其他任何人都要大。
当然,我说的是苹果昨天在 WWDC 上发布的新款混合现实头显,计划发货日期为 2024 年初,价格为 3499 美元。我有幸在受控演示环境下体验了一把 Apple Vision,感觉非常出色——当然了,真实环境下如何还有待验证。
比我预期的要好很多,而我的期望可是很高的。
- Ben Thompson (@benthompson) 2023 年 6 月 6 日
之所以抱有很高的期望,不仅是因为这款产品是由苹果这家全球无可争议的最佳硬件制造商打造的,而且还因为我与很多人不同的是,我对虚拟现实(VR)相对要乐观一些。但令我惊讶的是,苹果在这两个方面都超出了我的预期:硬件和体验比我想象的要好,Vision 的潜力比我预期的要大。不过,社会影响要复杂得多。
作为产品的 Vision
虚拟现实(VR)+增强现实(AR)
只要我写这方面的文章,我都一定会在文章中强调虚拟现实与增强现实之间的区别。来自 2016 年的一篇更新:
我认为区分一下虚拟现实与增强现实的差异是很有用的。看看名字就知道了:“虚拟”现实是一种完全脱离当前现实的沉浸式体验,而“增强”现实是对一个人所处现实的增强。这不仅仅是不同类型的头显在语义上的区别:沿着这个轴你可以划分出几乎所有的消费技术。电影与电子游戏讲述的是不同的现实;生产力软件与智能手机等设备则旨在增强当下。难怪所有重要的虚拟现实公告都会与视频游戏和电影相关。
增强现实要更有趣些:在大多数情况下,增强现实产品似乎最适合充当中心周围的辐条;比方说,汽车的信息娱乐系统在很大程度上是一种关注汽车乘员当前现实的设备,正如福特的公告所表明那样,其未来是迎合智能手机。一般来说,手表与可穿戴设备也是如此,至少目前是这样。
我在此强调时间基准是因为,要记住,对智能手机一开始的设想是以 PC 为中心的辐条;然而,事实证明,因为其移动性——它可以在更多地方发挥作用,从而得以增强更多的体验——最终智能手机取代了个人电脑变成了中心。因此,在思考有什么东西可能会取代掉智能手机的问题时,我怀疑今天被我们当成“辐条”的东西是一个很好的起点。而且,我要补充的是,这就是为什么像微软和谷歌这样的平台公司要专注于增强现实而不是虚拟现实,以及为什么神秘的 Magic Leap 迄今为止已经筹集了超过 10 亿美元资金的原因;始终在你的视野之中比始终在你的口袋之中(始终在你的手腕上)更吸引人。
稍后我会再讲讲刚刚这最后一段;我认为它不太对,部分是因为 Apple Vision 表明这段摘录的第一部分也不对。Apple Vision 在技术上属于一款虚拟现实设备,在体验上则属于增强现实设备,它属于那种你一旦体验过就觉得这显然是正确实现的解决方案,正确到你很难相信还有任何其他可能的方法来实现“计算机化眼镜”这个一般概念。
在你完成设备设置——这不仅包括将头显佩戴到你的头上,并在必要时增加一副根据视力调整的镜片,还包括设置眼动追踪(后面会讲到)——的那一刻,这个“现实”(有意的双关)马上就打动了你。一旦你越过了这些障碍,突然就好像重新回到起点:你看到了眼前的房间,保真度惊人。
这背后是Apple Vision 正在利用它的 12 个摄像头的一部分来捕捉外部世界,并将它们显示在你眼前邮票大小的屏幕上,给你的感觉就好像自己在戴着护目镜:你在看东西,不是100%的清晰,但分辨率和刷新速度已经足够高,所以没有理由认为它是假的。
速度必不可少:苹果声称,从你的身体期望你看到的东西,到你的大脑注意到你所看到的东西,这之间是有延迟的(像已知的VR问题如晕动症等就是因为这个原因),它的阈值是 12 毫秒,而Vision 传递视觉信号的管道会在 12 毫秒或更短的时间内将它看到的内容呈现在在你眼前的屏幕上。鉴于图像传感器捕获和处理所看到的内容需要约 7~8 毫秒的时间,这意味着 Vision 获取被捕获到的图像、进行处理然后呈现到你眼前只用了大约 4 毫秒的时间,这一点给人留下的印象尤为深刻。
这确实是只有苹果才能做到的事情,因为这样的速度要取决于两个方面:一是苹果设计的 R1 处理器(苹果还设计了部分图像传感器),其次,与苹果软件的集成。
领导头显研发的Mike Rockwell在解释“visionOS”
如果没有这个叫做“visionOS”的强大操作系统,这些先进技术都无法实现。它是建立在 macOS、iOS 以及 iPad OS 数十年工程创新的基础之上。在此基础上,我们增加了一系列新功能来满足空间计算对低延迟的要求,比方说,保证性能关键型工作负载的新的实时执行引擎、可逐帧将你眼睛所看位置最高质量的图像准确传递给你的动态注视点渲染管道,可让不同的 app 在同一个模拟下同时运行的,首创的多应用 3D 引擎,更重要的是,我们已经对现有的 app 框架进行了扩展,为空间体验提供原生支持。 visionOS 是第一个专门为空间计算而设计的操作系统。
这里的关键部分是“实时执行引擎”;“实时”不仅仅是对使用 Vision Pro 体验的描述:而且是一种不同类型计算的专业术语。维基百科是这样定义实时操作系统的:
实时操作系统 (RTOS) 是用于实时计算应用的操作系统 (OS),可处理具有严格定义的时间约束的数据和事件。 RTOS 不同于分时操作系统,比如 Unix,后者是在多任务或多程序环境下,通过调度程序、数据缓冲区或固定任务优先级来管理系统资源的共享。处理的时间要求需要充分理解并加以约束,而不是仅仅保持在最低限度。所有处理都必须在定义的约束范围内进行。实时操作系统是事件驱动和抢占式的,这意味着操作系统可以监控竞争任务的相关优先级,并对任务优先级进行更改。事件驱动系统根据优先级在任务之间切换,而分时系统根据时钟中断切换任务。
在嵌入式系统当中,实时操作系统被用于具有关键功能的应用,比方说汽车:一个有时会挂机甚至崩溃的信息娱乐系统是可以的,这些可以用更高的灵活性和更丰富的功能来交换,但实际操作车辆必须可靠且始终如一的快。概括而言,我们可以这么来思考 visionOS 的工作原理:虽然用户体验是个分时操作系统,且确实属于 iOS 的一个变体,并且是在 M2 芯片上运行的,但它还有个实时的子系统,主要用来操作R1芯片;这意味着即便 visionOS 挂机或崩溃,外部世界仍然会神奇地在 12 毫秒之内呈现在你眼前。
不用说,这是苹果软硬件整合能力迄今为止最有意义的体现:之前,这种整合体现在智能手机用户体验的提升上,或是苹果硅片笔记本电脑在功耗和效率之间看似不可能的结合上。而在这种情况下,苹果的整合能力让“将虚拟现实与增强现实融合到一个 Vision 之中”成为了可能。
无反光镜与混合现实
在数码相机的早期发展阶段,完全数字化的消费类相机,与在传统反光镜背后追加数字传感器,将实际光线推给光学取景器的高端相机之间存在分歧。然后,到了 2008 年,松下发布了 G1,这是第一款配备可更换镜头系统的无反光镜相机。G1 有一个取景器,但取景器其实就是个屏幕。
大多数高端相机用户一开始对这个系统其实是拒绝的:当然,无反光镜系统可以设计得更简单更小,但是看屏幕与像反光镜头这样通过相机镜头实际观看是没法比得。不过,时间快进到今天,市面上几乎所有的相机,包括专业相机,都已经取消了反光镜:这些小屏幕不仅变得更好、更亮、更快,而且它们也带来了许多自己的优势,包括能够在拍摄之前先看看拍出来得照片会是什么样的。
当 Vision Pro 把我上面提到的默认屏幕加载进来时,我脑海里面浮现的正是无反光镜相机,我可以透过屏幕毫不费力地看到周围的环境。在边缘的地方视野有点受限,但当我实际调出应用启动器,或者正在用应用或观看视频时,相对于像 Hololens 这样的增强现实体验来说,前者的视野绝对要大得多。换句话说,通过让体验全数字化,Vision Pro 提供了一种真正有用的增强现实体验,让真正的增强现实所面临的、仍然巨大的技术挑战看起来无关紧要。
回报是将数字体验分层次地融入到现实生活环境的能力:这可以包括生产力应用、照片、电影、电话会议,以及开发者能想到的任何其他东西,所有这些都可以在你不失去对现实世界的位置感的情况下使用。举一个小例子,在使用 Vision Pro 的时候,我的手机通知提醒一直在响个不停;于是我直接从兜里掏出手机,打开控制中心,打开了免打扰。后来回想起来的时候,我才想起自己在做这一切的时候在技术上其实是在虚拟现实世界里,跟现实环境隔绝的,但我的体验只是瞥了一眼我手中的手机,甚至都没想到过这一点。
让一切数字化在其他方面也能收获回报;他们演示了这种恐龙的体验,就好像恐龙进入了房间一样。
这样之所以能行得通,完全是因为虽然房间感觉是真的,但其实是数字渲染出来的。
这种体验的反向效果如何还有待观察:Vision Pro 有一个“EyeSight”,也就是所谓的前置显示器,可以向周围的人展示你的眼睛。EyeSight 不属于演示的一部分,所以是不是像看山谷那么的令人毛骨悚然还有待观察:不过,目标是一样的:保持在现实世界的位置感,不是通过解决看似不可能的物理问题,而是只需要将所有的内容数字化即可。
用户界面
用户的眼睛可以呈现在 Vision Pro 的外侧,这可以说是支持 Vision Pro 用户界面的技术的副产品:Vision Pro 会跟踪你正在看什么,以及当你想要对正在观看的东西采取行动时只需动动手指即可。值得注意的是,所谓的动动手指并不需要伸手进空间里:在我使用 Vision Pro 的整个过程中,我的手都是放在膝盖上的,Vision Pro 的摄像头会跟踪我手指的移动。
令人惊讶的是,这种效果太好了,感觉太自然了。这个 UI 的分辨率之高特别令人惊讶;不妨看看苹果演示文稿里面的这幅截图:
Photos 底部的那道杠你“抓取”后就可以将 Photos 移动到任何地方(字面意义上);那道杠旁边的小点可以关闭应用。左侧是照片特有的各种菜单项。值得注意的是它们有多小:这可不是像 iOS 或 iPadOS 那样必须适应粗大手指的用户界面;相反,visionOS 的眼球追踪非常准确,可以轻松标示出你正在查看的确切用户界面元素,同样地,你只需将手指并拢即可触发那些元素。所以很特别,而且效果非常好。
当然你也可以用键盘和触控板,通过蓝牙连接,你也可以将 Mac 投影到 Vision Pro 上;在 Photos 左侧有一台运行 Final Cut Pro 的 Mac,上面显示了该屏幕截图的完整版:
我没有机会尝试 Mac 投影,但说实话,当我看到主题演讲的这个部分时,我对这一功能感到非常兴奋,它的原生界面运行得非常好,我怀疑我会更喜欢使用原生应用,即便那些应用也适用于 Mac。
作为愿景的 Vision
作为新奇设备的 Vision Pro
令人难以置信的产品是一回事;但是,每个人心中的问题是,这到底有什么用?谁的生活里面还能给又一台设备留出空间,尤其是售价高达 3499 美元的设备?
对于产品的成功而言,这个问题往往比产品本身的质量更重要。苹果自己的新产品史就是一个很好的例子:
PC(包括 Mac)首次将计算带给了大众;那时人们的生活中还有大片相关的未知领域有待探索,这个产品类别取得了巨大成功。
iPhone 将计算从桌面扩展到人们生活的所有其他角落。事实证明,这个机会比台式机还要大,这个产品类别取得了更大的成功。
与 Mac 和 iPhone 相比,iPad 处在中间位置,史蒂夫·乔布斯在 2010 年推出该产品时就指出了这一事实:
我们现在都用笔记本电脑和智能手机。每个人都使用笔记本电脑和/或智能手机。最近出现了一个问题,这中间有没有第三类设备的空间?一种介于笔记本电脑和智能手机之间的东西。当然,我们多年来也一直在思考这个问题。这个门槛相当高。为了创造出一种新的设备类别,这种设备必须在执行一些关键任务方面做得更好。它们得在做一些真正重要的事情时做得更好,比笔记本电脑更好,比智能手机更好。
乔布斯接着列出了他认为 iPad 可能更擅长的一些事情,包括网页浏览、电子邮件、查看照片、观看视频、听音乐、玩游戏以及阅读电子书。
事实上,他列举的那些事情真正能行的只有观看视频,尤其是流媒体服务。可以肯定的是,这是一个非常重要的用例,而且 iPad 是一款成功产品(并且其潜在用例已被 Apple Pencil 大幅扩展),收入几乎与 Mac 持平,尽管它在平板电脑市场占据了主导地位,而 Mac 在 PC 市场的份额则要小很多。但另一方面,iPad 跟 iPhone 相比就差远了,这是说得过去的:对于一个人的设备收藏来说,iPad 是很好的补充,但 iPhone 却是必不可少的。
批评者是有理由的,这将是 Apple Vision 在开始时所面临的挑战:许多早期购买者可能是由于对其新颖性感兴趣,或者由于他们是苹果的超级粉丝,所以有理由怀疑 Vision Pro 是否会成为全世界最昂贵的装饰品。用一张乔布斯幻灯片的更新版来说:
难怪据报道苹果将其销售预测削减至不到 100 万台设备。
Vision Pro 与生产力
如上所述,我一直对虚拟现实持相对乐观的态度,部分是因为我认为最吸引人的用例是工作。首先,如果一个设备确实能让人效率更高的话,那么证明其成本的合理性就容易得多。其次,虽然戴上头显是个障碍(回到我上面关于虚拟现实/增强现实的思维框架),但头显是个目的地设备,而工作就是一个目的地。我在谈 Meta 的 Horizon Workrooms 时曾经写道:
不过要注意的是这个:工作是个目的地,而这个目的地占用了我们大量的时间,而COVID 又带来了新的变化。当然,当我在 2018 年写下那篇持怀疑态度的文章时,对于绝大多数人来说,工作目的地是个物理空间;不过,因为疫情关系,突然之间,尤其是对于数百万白领来说,工作这个目的地变成了虚拟空间。而且,如果工作已经是虚拟空间的话,那么突然间,虚拟现实似乎变得更具吸引力了。换句话说,虚拟现实可能比以前想象的要重要得多,因为它普及的载体不是消费者空间(与游戏),而是企业空间,尤其是会议。
苹果确实讨论了用 Vision Pro 开会,包括用于 Facetime 的角色框架(这是他们对化身的称呼),且将会被整合到即将推出的 Zoom、Teams 和与 Webex app 里面。不过,在我看来,更吸引人的是直接就用 Vision Pro 而不是 Mac(或通过投影屏幕与 Mac 结合使用)。
我是多显示器的忠实粉丝(当然了这里有过分强调我个人体验的风险):我的办公桌上有四台显示器,现在,在路上要对着笔记本电脑屏幕打字的体验实在令人沮丧。要是能随身携带一台可以展示巨大工作空间的设备,我绝对愿意花钱买下来,虽然我会在真正用上 Vision Pro 之前保留这个判断,但我也看得出在办公桌前开会更好。
我已经用 Quest 试过了,但屏幕分辨率太低,用起来不够舒适,用户界面有点笨拙,沉浸感太强:戴着它甚至连喝杯咖啡都很难。哦还有,电池续航时间还不够好。不过,所有这些问题 Vision Pro 都解决了:分辨率非常高,我对用户界面非常满意,而且至关重要的是,你仍然可以看到周围的事物并可以与人和事物互动。此外,这也是外接电池解决方案的优势所在,因为你可以轻松地将电池组插入充电器并一整天使用头显(而且,假设苹果的实时渲染能够正常运行,你就不会有晕动症)
同样地,鉴于我的预测和个人的工作流,我在这一点上已经存在偏见,但如果 Vision Pro 能取得成功的话,我认为他们在营销上很重要的一点是要先与 Mac 一起配合使用,并且随着原生 app 生态体系的发展,逐步取代其中的一个。
为了让我的观点体现得更强烈,我怀疑 Vision Pro 就是 Mac 的未来。
Vision 与 iPad
Vision Pro 更大的机会是向 iPad 靠拢,并成为终极的消费设备:
主题演讲强调了 Vision Pro 的观影体验,以及出色的沉浸感。当然,到头来,这与在黑暗的房间里有一台出色的电视并没有太大区别。
更引人注目的是苹果在主题演讲里面没有展示的一系列沉浸式的视频体验。不出所料,让我印象最为深刻的是运动。有一个 NBA 篮球比赛的片段非常逼真:比赛片段是在底线投篮,作为有幸在场边坐过的人,我感觉跟现场完全一样,而且,必须说,这种沉浸感比 Quest 上的类似体验要强烈得多。
事实证明,之所以有这种沉浸感,原因之一是苹果其实是做了自己的摄像头,采用其全新的苹果沉浸式视频格式(Apple Immersive Video Format)来捕捉游戏画面。该公司对计划如何让这些摄像头及其格式更普及一事保持沉默,但当我说我愿意掏数千美元给 NBA 去买一张季票,好观看用这种方式拍摄的比赛时,我完全是认真的。是的,这个说法很疯狂,但场边座位的价格也是一样高或者更高,而且那 10 秒的片段与真实情况惊人地接近。
令人着迷的是,在我看来,这样的季票看起来应该与传统的电视转播截然不同,后者会有多个摄像机角度、多位播音员、不同的记分牌等等。我不想要这些:如果我想看比分,我只需抬头看记分牌即可,就好像我在体育馆现场一样;声音就是现场人群以及现场播音员的声音。换句话说,苹果沉浸式视频格式的可能性比我想象的要大得多,真正能让你感觉到自己身处在一个不同的地方。
不过,这就是个 10 秒的片段(还有一个棒球比赛的片段,内容是从主队的休息区开始射门,同样很吸引人)。在制作真正提供这种体验的内容方面,有一个先有鸡还是先有蛋的问题,这可能就是主题演讲重点聚焦 2D 视频的原因。推而广之,这意味着更难证明“出于消费目的购买 Vision Pro 是合理的”这一论点。不过,这种体验实在是太吸引人了,以至于我怀疑这个问题最终会得到解决,届时它的可达市场就不仅是 Mac,而是还将包括 iPad。
这个愿景没有影响到 iPhone:我认为智能手机是计算方面的巅峰之作,也就是说,凡是 iPhone 不适合的地方都可以用 Vision Pro。
对 Vision 的批判
我知道,这篇文章对 Vision Pro 的态度太过乐观和积极,但它确实让人感觉就是未来。不过,这个未来的到来需要时间:我怀疑这会是个慢热的过程,尤其是在取代 Mac 或 iPad 等产品类别时。
此外,我甚至都还没有讨论到苹果最推崇的功能之一,也就是 Vision Pro 能够即时拍摄“照片”——捕捉时间片段的能力——其实就是记忆,并以一种令人感觉极为亲密生动的方式呈现出来。
其中一个问题是,目前记录这些记忆确实需要先佩戴 Vision Pro,这真的很尴尬!不妨看看这个女孩生日聚会的视频:
父亲戴着头显为他的女儿吹灭生日蜡烛时,这看起来会很奇怪;也许这个问题可通过一系列独立摄像头来解决,以苹果沉浸式视频格式拍摄照片,换句话说,这还是一个先有鸡还是先有蛋的问题。
不过,更引人注目的是主题演讲中的这段视频是如何呈现对设备的消费的:
请注意那空荡荡的房子:孩子们怎么了?事实上,苹果后来在总结主题演讲的时候又回到了这个片段,“重温回忆”这句话让我感到非常悲伤:
说实话:在我看来,那人似乎是一位已离婚的父亲,一个人在家,戴上他的 Vision Pro,他妻子也许是因为他太过沉浸在自己的虚拟体验中迷失了自我而感到恼火,从而选择了离开他。这无疑为苹果那句“Vision Pro 是有史以来最先进的个人电子产品”的宣言做出了不同的诠释。
事实上,跟 iPhone 相比,这个更像是真正的个人电脑。是的,有混合现实以及 EyeSight 等功能可供你与周围的人互动,但归根结底,Vision Pro 是一种孤独的体验。
不过,这就是趋势:老读者都知道,我一直在哀叹“个人”电脑的头衔被冠在台式电脑头上,但其实 iPhone 才是更加个人化的产品,不过现在连 iPhone 都黯然失色了。技术的发展方向基本上是苹果引领的,其主线就是体验越来越个人化,我不确定这种趋势与“全社会范围内与组建家庭渐行渐远,孤独感越来越强”的趋势同时发生是不是偶然。
要指出的是,与 Meta 的 Quest 对比最有趣的一点就在这里。很不幸,Meta 的现实是在硬件方面他们似乎已经完全落伍了。是,苹果的设备在价格上贵 7 倍,当然这价格的很大一部分贡献给了对分辨率的提高,但当我们考虑苹果自家芯片和定制操作系统之间的深度集成的时候,对于一个已经(正确地)致力于基于安卓操作系统和高通设计芯片的公司来说(指 Meta),要复制这一点将会非常困难。
不过,更引人注目的是苹果朝着个人计算体验的倾斜力度有多大,而 Meta,正如你能想到的那样,关注的是社交。我确实认为在场感是真实存在的,而且非常吸引人,但实现在场感取决于你的关系网络也有虚拟现实设备,这导致 Meta 的目标会变得更难实现。与此同时,苹果对有没有在场感甚至都不在意:它的 Facetime 功能就是通过窗口的头像来实现的,这体现出用户是分开的。而 Meta 想让用户产生大家在一起的感觉。
换句话说,我们有理由希望获胜的是 Meta:我们似乎都需要更多的连接性,以及不那么孤立的极致沉浸体验,从而减轻孤独带来的痛苦。然而,人们不禁想问,Meta是否不仅在硬件上要与苹果竞争,同时还得跟社会的整体趋势竞争。换句话说,之所以看好 Vision Pro,实际上可能是由于我们并不看好我们自身具备建立有意义连接的能力。
译者:boxi。















