Rokid行业首个推进AIUI ,下一代AI Agent眼镜影响几何?

X研究媛·2026年03月26日 10:26
AI眼镜大动作,吊足了所有人的胃口。

Misa 这次吊足了所有人的胃口。

文|殊月

编辑|JeffHill

上次拜访Rokid的CEO Misa,惊闻Rokid团队正与国内极受关注、某神秘基础大模型公司共同搞大动作,进行重量级功能的技术和产品可行性探讨。

两家可能正在进行“秘密共同研发”,最近似乎有成果了。因为 Misa 最近发了一张预告图:

眼镜的Always-on和Hands-free特性,大模型最佳载体

之前,许多人看中AR眼镜的潜力,相信它最终能接过智能手机的棒,成为下一代消费电子。

一个关键理由是,AR与AI眼镜有一项核心特性:超长的实时在线(Always On)与极低的存在感。高频,且刚需。

我们其实不难发现,眼镜是一个日常佩戴时间非常长,存在感很低,对舒适要求又非常高的终端形态。它离语音非常近,而且稳定性很好,又不需要用户改变什么已有的习惯。

眼镜相比手机,“实时在线”于我们的感官,而手机需要主动地掏出、解锁、打开,才能与它互动。

眼镜,是我们“看”世界的一部分,天然地与视、听感官融合。佩戴眼镜,无论是近视镜还是太阳镜,都习惯于让它始终存在于自己的视野边缘或中心。当AI能力注入其中,它便成为了一种“无感”的、随时待命的智能存在。

眼镜的种种特性,可以说是大模型的最佳载体。

AI眼镜提供了更短链路的交互。比如,想了解一下前方餐厅的评分和特色菜品,使用智能手机,你需要:掏出手机-解锁屏幕-找到并点击地图或点评App-输入或语音搜索-等待结果。这一系列动作加起来至少需要7-8秒。而使用AI眼镜,你只需要一句话:“嘿,眼镜,前面这家餐厅怎么样?”眼镜会立刻通过语音或微显示将信息呈现在你眼前。眼镜Hands-Free特性,意味着更快的即时响应。

眼镜的第一视角和多模态数据采集能力,能成为人类本体器官的延伸。智能手机是一个需要主动使用的外部工具,而AI眼镜则能实时、无感地获取眼前三维空间的真实世界数据——我们看到的景象、听到的声音、说出的语音、眼动的方向、头部的姿态。这些全天候积累的个性化数据,对于训练个人专属的AI Agent意义非凡。一个真正了解你的AI,不仅知道你的日程和喜好,还能看到你所看到的,听到你所听到的,从而提供更加精准、及时且具有预见性的服务。这种能力,蕴藏着巨大的商业化潜力。

AI与眼镜,一个是颠覆性的智能,一个是与人类感官最贴近的硬件形态,耦合很深。眼镜因为AI开始“思考”,从一个被动的光学工具,变成一个主动的智能助手;而眼镜也为AI提供了一个“感知”世界的窗口,让它超越虚拟的文本和线上数据,能实时理解三维物理空间。

如今普通人每天与AI交互的次数、频率和时长正在突破一个临界点当与AI对话成为像“用电”一样自然的基础需求时,眼镜作为AI终端的特性将被无限放大。

老一套的人机交互和UI,看不到未来

之前AR眼镜被看好下一代消费电子,但潜力一直很难兑现,一个关键卡点:普通用户是没法接受它的交互。尤其在三维空间定位、框选、操作非常低效和费劲

AR眼镜必须在保证轻便、舒适、低功耗的前提下,实现高效、自然、精准的人机交互。在大模型出现之前,特别是多模态模型没有本质突破之前,几乎是无解难题。

触控交互目前暂时是主流,从智能手机到智能手表,触控无处不在。现在的AI眼镜将触控板集成在镜腿上,上手很快,但它完全没有了“Hands-Free”特性。用户进行触控操作时,手必须抬起来接触眼镜,这打断了自然的活动状态。而且镜腿上的触控区域狭小,操作精度受限,进行复杂操作(如文字输入、精细选择)时体验不佳,容易产生误触。

声控交互也是目前许多AI眼镜主打的方案,它的确实现了“Hands-Free”,用户只需说出唤醒词和指令,就能完成拍照、打电话、查询信息等操作。但声控交互最核心的问题隐私,在公共场合,如电梯、会议室、图书馆,对着空气大声说话下达指令,很尴尬,用户也担心自己的指令和眼镜的回应被他人听到。在嘈杂的街道、餐厅或风声较大的户外,语音识别准确率会大幅下降,延迟高,或者交互失败,不断积累挫败感。

眼球追踪也是之前AR眼镜被重点探索的方案。因为“眼睛看到哪,光标就跟到哪”,这完全符合人类的直觉。追踪用户的注视点,系统可以精准定位用户当前关注的物体或区域,并以此为基础进行下一步交互。问题是,精确的眼球追踪需要高帧率的摄像头、红外光源和复杂的图像处理算法,增加眼镜的组件重量、体积和耗电量,不可避免。在追求极致轻便和长续航的眼镜上,集成一套高精度的眼球追踪系统是一项巨大的工程挑战。此外,如何区分“看”和“选中”,即“凝视”与“确认”的机制设计,难度不小。

还有手势识别,让用户可以通过挥手、捏合等动作与虚拟世界互动。但手势识别在实际应用中,面临的挑战与眼球追踪类似:它需要高质量的传感器,通常是摄像头或深度传感器,以强大的本地算力来实时解析手部的骨骼和动作。这在寸土寸金的眼镜上,特别是AI眼镜,很不现实。而且,手势识别在没有视觉反馈的情况下,很容易让人产生空中画符的尴尬和疲劳感,操作效率也远低于物理按键。

肌电信号(EMG)很前沿,很酷,也规避了很多缺点。EMG腕带通过佩戴在手臂上的传感器捕捉肌肉运动产生的电信号,从而识别手指的细微动作。Meta在Orion眼镜中展示过,用户无需抬手,只要在口袋里或桌面下微微动动手指,就能实现对眼镜的操控,完美地解决了隐私性和“社会尴尬”的问题,也非常自然和“无感”。肌电交互很好,但它同样面临着技术成熟度和成本问题。目前,高精度的肌电信号采集和处理,不仅对硬件有要求,而且算法的通用性和对个体差异的适应性都是问题,大规模商用也成本高昂。

基本上,越高效、越自然、越先进的交互方式,往往意味着越高的硬件成本、越大的组件体积重量,以及越高的功耗。

追求极致的自然交互(如眼球+手势),可能会导致眼镜变得笨重,续航尿崩,反而降低了用户佩戴的意愿,这与AI眼镜“轻便、Always On”的核心价值背道而驰。

怎么解决?

这把可能的钥匙,AI User Interface (AIUI)。还有背后,多模态大模型驱动的,AI Agent

革命性的 AI-native UI,令人兴奋

AIUI是什么,绝不是给语音助手换个皮、换个新名字,而是一种基于AI大模型驱动的、多模态融合的、主动式的人机交互范式。它让AI去适应用户,而不是让用户去适应机器。当AIUI能够以极低的硬件成本和功耗,显著降低交互难度,AI眼镜才能被广泛接纳,这对行业是巨大的推动

AIUI的精髓在于其“多模态融合”与“上下文感知”的能力。传统的交互模式是“指令-执行”的单一路径。用户发出明确的指令,设备执行,然后等待下一个指令。理论上,AIUI则将语音、视觉、甚至是环境传感器数据融合在一起,理解用户的“意图”而非仅仅是“指令”。

例如,当你戴着AI眼镜看向一座陌生的建筑,并下意识地说了一句“这楼真漂亮”。一个传统的语音助手可能会一头雾水,或者仅仅是把这句话记录下来。但在AIUI框架下,眼镜的AI Agent会同时处理多个维度的信息:

视觉信息:通过眼镜的摄像头,AI“看到”了你正在注视的建筑,并识别出它的外形、风格、可能的名称。

语音信息:AI听到了你说“这楼真漂亮”,这是一个带有情感色彩的评价,而不是一个明确的指令。

上下文信息:AI知道你当前的位置(通过GPS),当前的时间,甚至可能知道你之前是否搜索过建筑相关的信息。

基于这些融合的多模态数据,AIUI 能够做出一个智能的、主动的响应。

但 AI-native UI 真正要落地,难度不小,它必然把底层架构重新推倒重来,设计出以AI模型(而非传统确定性逻辑)为核心驱动力的用户界面。它和传统图形用户界面(GUI)或“加了AI按钮的旧界面”有本质不同。其核心特征可以归纳为以下几点:

动态生成,而非静态预设

传统UI的控件(按钮、菜单、窗口)是设计师预先画好的,交互路径是固定的。AI-native UI的界面元素往往是实时生成的——根据用户意图、上下文和模型输出动态出现。

对话即界面,模糊了“交互”与“结果”的边界

传统UI里,用户先操作控件,再等待反馈。AI-native UI让自然语言对话成为主要交互方式,用户直接表达目标,系统用语言/内容/动作同时作为交互和结果。

多模态融合,交互媒介不再限于鼠标键盘

传统UI依赖指针和键盘输入。AI-native UI能同时处理语音、图像、手势、甚至眼神,并以最适合当前任务的形态呈现输出。

预测性与主动性

传统UI是被动的:用户触发,系统响应。AI-native UI能够预测用户意图,提前准备信息或主动建议,甚至代替用户完成部分决策。

个性化适应,而非千人一面

传统UI通过设置面板让用户手动调整偏好。AI-native UI通过持续学习用户行为、语言习惯、工作流,自动适应并优化界面和交互方式。

无界面(Zero UI)或隐身界面

最高级别的AI-native UI可能是没有传统UI——界面退居幕后,AI直接完成任务。用户感受不到“操作界面”,只看到任务被自动完成。

协作式人机共创,而非单纯执行指令

传统UI里机器是工具,执行明确指令。AI-native UI鼓励人与AI共同探索,AI提供选项、反问、补充,形成循环迭代的创作或决策过程。

允许模糊输入和纠错

传统UI要求输入精确(表单字段、下拉选项)。AI-native UI接受模糊、不完整、甚至矛盾的指令,并通过对话澄清或自动修正。

AIUI与传统UI的本质区别,基本可以归纳为:

 

真正的 AI-native UI目前还在演进初期,很多产品只是在旧壳子上加了AI功能。但Rokid这次是真落地,真干事实,AIUI的预告已经放出来!

这是我收到的Misa发来的一个很粗糙小demo视频。

AI眼镜未来,必然有GUI Agent

从24年智谱第一次演示GUI Agent,大模型帮我们打开微信然后群发红包,到今年龙虾接管电脑,第一次你只要轻飘飘吩咐一句,就实现完全自动化的工作流,24小时不知疲倦。

大模型展示了一种之前AR眼镜梦寐以求的能力,替我们完成那些长链条跨应用的复杂操作。

GUI Agent,图形用户界面智能体,它的核心能力在于能够像人一样“看懂”屏幕上的内容,并模拟人类的操作逻辑,自动完成一系列任务。与传统自动化脚本依赖于固定的坐标点击或应用接口不同,GUI Agent依靠的是强大的视觉-语言推理思维链。

它不关心屏幕上的按钮在哪个坐标,而是能理解“这个蓝色的圆角矩形是‘确认’按钮”、“这段文字是联系人列表中的张三”。当用户下达一个模糊的、长链条的指令时,比如“帮我订一张明天下午去北京的机票,然后告诉小李”,GUI Agent会将其拆解为一系列子任务:打开机票应用、搜索航班、选择座位、进入支付流程、切换到通讯App、找到小李、发送消息。整个过程,它通过持续的“看-思考-操作-再看”的闭环,确保每一步都正确执行。

当大模型接管交互和操作,一切都会变得新鲜,兴奋,前所未见

Rokid的这次升级,具体还没放出来,如果也将GUI AI Agent深度整合进操作系统的底层,将是真正颠覆性的。

在此之前,AI眼镜的UI本质上是传统操作系统(如Android)的变体,用户通过触控、语音或手势,去操作一个个独立的App。AI更像是一个“语音助手”插件,负责调用某个App的特定功能。

而之后,完全不同。当你戴上升级后的Rokid眼镜,你的视野中不再是排列整齐的App图标。取而代之的,是一个始终在线的、极简的“AI助手”。当你需要完成某个任务时,你不再需要思考“我该点开哪个App”,而是直接说出你的意图,或者让AI Agent通过观察你的行为来预测你的意图。而Rokid一旦走到了这个层次,AI Agent就成为整个UI的中心和“大脑”。

Rokid推进AIUI,Misa的野心,将眼镜从一个“可穿戴的显示器”,彻底转变为一个“可穿戴的智能体”。它的易用性能得到指数级的提升,用户不再需要学习和适应复杂的UI操作逻辑,UI退居幕后,前台是善解人意的AI。这种交互方式,比Meta Ray-Ban的“语音+简单图像识别”又向前迈进了一大步。

就像前文设想的AIUI的完整形态:多模态融合、上下文感知、主动式服务。倘若Rokid的这次更新,验证了GUI Agent和AI-native UI的可行性,当AI Agent不仅能理解用户的意图,还能通过视觉-语言推理思维链,自动完成跨应用、长链条的复杂任务时,AI眼镜市场一定能迎来爆发式增长。

用户不再需要记住“哪个App做什么”,不再需要学习“如何操作这个界面”,他们只需要表达自己想要什么,剩下的交给AI这就是我们想要的

Rokid可能正在向所有从业者展示,即使在现有硬件条件(不是最前沿、最昂贵的传感器)下,通过AI软件和系统架构的创新,依然可以实现飞跃式的用户体验提升。当AI Agent成为交互的核心,当UI变得如此智能以至于“消失”时,AI眼镜就成为了一种与人共生的数字器官。

后话

中国AR四小龙,每一家都有安身立命的本事。Rokid的独特在于早早预见了硬件的艰深,在软件、UI、系统、生态上有所布局

从消费级AR到AI眼镜,凡是进入这个行业身体力行的创业者,都会碰到这些难题:

—  高亮度全彩色的微显示

—  更大eyebox更少漏光和彩虹纹的光波导Layout

—  指环、手势、语音、眼球追踪、肌电各种人机交互的软硬件

显示、传感、计算、续航每一项的底层技术限制都很大,每一个子问题都是可以研究一辈子那种。

一家企业的命运,当然要靠自我奋斗,但是也要考虑到历史的进程。因为创业能不能踩中节奏几乎可以决定生死。

玩操作系统出身的Misa,在系统、应用、生态的押注和投入,四小龙中是独一档的。Rokid玩家社区的活跃度,软件和系统的OTA次数,甚至Misa更新朋友圈推销自家眼镜的频率,是最有说服力的标签。一个活力满满极具韧性的创业者,春节只给自己放假一天,他的企业必然有旺盛的生命力。

可能是Misa推崇的玩乐精神,Rokid才能举步维艰中走到今天,成为C端用户中稳稳站住了第一心智的领头羊。

本文来自微信公众号“X研究媛”,作者:X 特别研究媛,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

北京发布二轮供地清单:4宗地块,丰台通州怀柔各1-2宗。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业