Rokid行业首个推进AIUI ，下一代AI Agent眼镜影响几何？

X研究媛·2026年03月26日 10:26

AI眼镜大动作，吊足了所有人的胃口。

Misa 这次吊足了所有人的胃口。

文｜殊月

编辑｜JeffHill

上次拜访Rokid的CEO Misa，惊闻Rokid团队正与国内极受关注、某神秘基础大模型公司共同搞大动作，进行重量级功能的技术和产品可行性探讨。

两家可能正在进行“秘密共同研发”，最近似乎有成果了。因为 Misa 最近发了一张预告图：

眼镜的Always-on和Hands-free特性，大模型最佳载体

之前，许多人看中AR眼镜的潜力，相信它最终能接过智能手机的棒，成为下一代消费电子。

一个关键理由是，AR与AI眼镜有一项核心特性：超长的实时在线（Always On）与极低的存在感。高频，且刚需。

我们其实不难发现，眼镜是一个日常佩戴时间非常长，存在感很低，对舒适要求又非常高的终端形态。它离语音非常近，而且稳定性很好，又不需要用户改变什么已有的习惯。

眼镜相比手机，“实时在线”于我们的感官，而手机需要主动地掏出、解锁、打开，才能与它互动。

眼镜，是我们“看”世界的一部分，天然地与视、听感官融合。佩戴眼镜，无论是近视镜还是太阳镜，都习惯于让它始终存在于自己的视野边缘或中心。当AI能力注入其中，它便成为了一种“无感”的、随时待命的智能存在。

眼镜的种种特性，可以说是大模型的最佳载体。

AI眼镜提供了更短链路的交互。比如，想了解一下前方餐厅的评分和特色菜品，使用智能手机，你需要：掏出手机-解锁屏幕-找到并点击地图或点评App-输入或语音搜索-等待结果。这一系列动作加起来至少需要7-8秒。而使用AI眼镜，你只需要一句话：“嘿，眼镜，前面这家餐厅怎么样？”眼镜会立刻通过语音或微显示将信息呈现在你眼前。眼镜Hands-Free特性，意味着更快的即时响应。

眼镜的第一视角和多模态数据采集能力，能成为人类本体器官的延伸。智能手机是一个需要主动使用的外部工具，而AI眼镜则能实时、无感地获取眼前三维空间的真实世界数据——我们看到的景象、听到的声音、说出的语音、眼动的方向、头部的姿态。这些全天候积累的个性化数据，对于训练个人专属的AI Agent意义非凡。一个真正了解你的AI，不仅知道你的日程和喜好，还能看到你所看到的，听到你所听到的，从而提供更加精准、及时且具有预见性的服务。这种能力，蕴藏着巨大的商业化潜力。

AI与眼镜，一个是颠覆性的智能，一个是与人类感官最贴近的硬件形态，耦合很深。眼镜因为AI开始“思考”，从一个被动的光学工具，变成一个主动的智能助手；而眼镜也为AI提供了一个“感知”世界的窗口，让它超越虚拟的文本和线上数据，能实时理解三维物理空间。

如今普通人每天与AI交互的次数、频率和时长正在突破一个临界点。当与AI对话成为像“用电”一样自然的基础需求时，眼镜作为AI终端的特性将被无限放大。

老一套的人机交互和UI，看不到未来

之前AR眼镜被看好下一代消费电子，但潜力一直很难兑现，一个关键卡点：普通用户是没法接受它的交互。尤其在三维空间定位、框选、操作非常低效和费劲。

AR眼镜必须在保证轻便、舒适、低功耗的前提下，实现高效、自然、精准的人机交互。在大模型出现之前，特别是多模态模型没有本质突破之前，几乎是无解难题。

触控交互目前暂时是主流，从智能手机到智能手表，触控无处不在。现在的AI眼镜将触控板集成在镜腿上，上手很快，但它完全没有了“Hands-Free”特性。用户进行触控操作时，手必须抬起来接触眼镜，这打断了自然的活动状态。而且镜腿上的触控区域狭小，操作精度受限，进行复杂操作（如文字输入、精细选择）时体验不佳，容易产生误触。

声控交互也是目前许多AI眼镜主打的方案，它的确实现了“Hands-Free”，用户只需说出唤醒词和指令，就能完成拍照、打电话、查询信息等操作。但声控交互最核心的问题隐私，在公共场合，如电梯、会议室、图书馆，对着空气大声说话下达指令，很尴尬，用户也担心自己的指令和眼镜的回应被他人听到。在嘈杂的街道、餐厅或风声较大的户外，语音识别准确率会大幅下降，延迟高，或者交互失败，不断积累挫败感。

眼球追踪也是之前AR眼镜被重点探索的方案。因为“眼睛看到哪，光标就跟到哪”，这完全符合人类的直觉。追踪用户的注视点，系统可以精准定位用户当前关注的物体或区域，并以此为基础进行下一步交互。问题是，精确的眼球追踪需要高帧率的摄像头、红外光源和复杂的图像处理算法，增加眼镜的组件重量、体积和耗电量，不可避免。在追求极致轻便和长续航的眼镜上，集成一套高精度的眼球追踪系统是一项巨大的工程挑战。此外，如何区分“看”和“选中”，即“凝视”与“确认”的机制设计，难度不小。

还有手势识别，让用户可以通过挥手、捏合等动作与虚拟世界互动。但手势识别在实际应用中，面临的挑战与眼球追踪类似：它需要高质量的传感器，通常是摄像头或深度传感器，以强大的本地算力来实时解析手部的骨骼和动作。这在寸土寸金的眼镜上，特别是AI眼镜，很不现实。而且，手势识别在没有视觉反馈的情况下，很容易让人产生空中画符的尴尬和疲劳感，操作效率也远低于物理按键。

肌电信号（EMG）很前沿，很酷，也规避了很多缺点。EMG腕带通过佩戴在手臂上的传感器捕捉肌肉运动产生的电信号，从而识别手指的细微动作。Meta在Orion眼镜中展示过，用户无需抬手，只要在口袋里或桌面下微微动动手指，就能实现对眼镜的操控，完美地解决了隐私性和“社会尴尬”的问题，也非常自然和“无感”。肌电交互很好，但它同样面临着技术成熟度和成本问题。目前，高精度的肌电信号采集和处理，不仅对硬件有要求，而且算法的通用性和对个体差异的适应性都是问题，大规模商用也成本高昂。

基本上，越高效、越自然、越先进的交互方式，往往意味着越高的硬件成本、越大的组件体积重量，以及越高的功耗。

追求极致的自然交互（如眼球+手势），可能会导致眼镜变得笨重，续航尿崩，反而降低了用户佩戴的意愿，这与AI眼镜“轻便、Always On”的核心价值背道而驰。

怎么解决？

这把可能的钥匙，AI User Interface (AIUI)。还有背后，多模态大模型驱动的，AI Agent。

革命性的 AI-native UI，令人兴奋

AIUI是什么，绝不是给语音助手换个皮、换个新名字，而是一种基于AI大模型驱动的、多模态融合的、主动式的人机交互范式。它让AI去适应用户，而不是让用户去适应机器。当AIUI能够以极低的硬件成本和功耗，显著降低交互难度，AI眼镜才能被广泛接纳，这对行业是巨大的推动。

AIUI的精髓在于其“多模态融合”与“上下文感知”的能力。传统的交互模式是“指令-执行”的单一路径。用户发出明确的指令，设备执行，然后等待下一个指令。理论上，AIUI则将语音、视觉、甚至是环境传感器数据融合在一起，理解用户的“意图”而非仅仅是“指令”。

例如，当你戴着AI眼镜看向一座陌生的建筑，并下意识地说了一句“这楼真漂亮”。一个传统的语音助手可能会一头雾水，或者仅仅是把这句话记录下来。但在AIUI框架下，眼镜的AI Agent会同时处理多个维度的信息：

视觉信息：通过眼镜的摄像头，AI“看到”了你正在注视的建筑，并识别出它的外形、风格、可能的名称。

语音信息：AI听到了你说“这楼真漂亮”，这是一个带有情感色彩的评价，而不是一个明确的指令。

上下文信息：AI知道你当前的位置（通过GPS），当前的时间，甚至可能知道你之前是否搜索过建筑相关的信息。

基于这些融合的多模态数据，AIUI 能够做出一个智能的、主动的响应。

但 AI-native UI 真正要落地，难度不小，它必然把底层架构重新推倒重来，设计出以AI模型（而非传统确定性逻辑）为核心驱动力的用户界面。它和传统图形用户界面（GUI）或“加了AI按钮的旧界面”有本质不同。其核心特征可以归纳为以下几点：

动态生成，而非静态预设

传统UI的控件（按钮、菜单、窗口）是设计师预先画好的，交互路径是固定的。AI-native UI的界面元素往往是实时生成的——根据用户意图、上下文和模型输出动态出现。

对话即界面，模糊了“交互”与“结果”的边界

传统UI里，用户先操作控件，再等待反馈。AI-native UI让自然语言对话成为主要交互方式，用户直接表达目标，系统用语言/内容/动作同时作为交互和结果。

多模态融合，交互媒介不再限于鼠标键盘

传统UI依赖指针和键盘输入。AI-native UI能同时处理语音、图像、手势、甚至眼神，并以最适合当前任务的形态呈现输出。

预测性与主动性

传统UI是被动的：用户触发，系统响应。AI-native UI能够预测用户意图，提前准备信息或主动建议，甚至代替用户完成部分决策。

个性化适应，而非千人一面

传统UI通过设置面板让用户手动调整偏好。AI-native UI通过持续学习用户行为、语言习惯、工作流，自动适应并优化界面和交互方式。

无界面（Zero UI）或隐身界面

最高级别的AI-native UI可能是没有传统UI——界面退居幕后，AI直接完成任务。用户感受不到“操作界面”，只看到任务被自动完成。

协作式人机共创，而非单纯执行指令

传统UI里机器是工具，执行明确指令。AI-native UI鼓励人与AI共同探索，AI提供选项、反问、补充，形成循环迭代的创作或决策过程。

允许模糊输入和纠错

传统UI要求输入精确（表单字段、下拉选项）。AI-native UI接受模糊、不完整、甚至矛盾的指令，并通过对话澄清或自动修正。

AIUI与传统UI的本质区别，基本可以归纳为：

真正的 AI-native UI目前还在演进初期，很多产品只是在旧壳子上加了AI功能。但Rokid这次是真落地，真干事实，AIUI的预告已经放出来！

这是我收到的Misa发来的一个很粗糙小demo视频。

AI眼镜未来，必然有GUI Agent

从24年智谱第一次演示GUI Agent，大模型帮我们打开微信然后群发红包，到今年龙虾接管电脑，第一次你只要轻飘飘吩咐一句，就实现完全自动化的工作流，24小时不知疲倦。

大模型展示了一种之前AR眼镜梦寐以求的能力，替我们完成那些长链条、跨应用的复杂操作。

GUI Agent，图形用户界面智能体，它的核心能力在于能够像人一样“看懂”屏幕上的内容，并模拟人类的操作逻辑，自动完成一系列任务。与传统自动化脚本依赖于固定的坐标点击或应用接口不同，GUI Agent依靠的是强大的视觉-语言推理思维链。

它不关心屏幕上的按钮在哪个坐标，而是能理解“这个蓝色的圆角矩形是‘确认’按钮”、“这段文字是联系人列表中的张三”。当用户下达一个模糊的、长链条的指令时，比如“帮我订一张明天下午去北京的机票，然后告诉小李”，GUI Agent会将其拆解为一系列子任务：打开机票应用、搜索航班、选择座位、进入支付流程、切换到通讯App、找到小李、发送消息。整个过程，它通过持续的“看-思考-操作-再看”的闭环，确保每一步都正确执行。

当大模型接管交互和操作，一切都会变得新鲜，兴奋，前所未见。

Rokid的这次升级，具体还没放出来，如果也将GUI AI Agent深度整合进操作系统的底层，将是真正颠覆性的。

在此之前，AI眼镜的UI本质上是传统操作系统（如Android）的变体，用户通过触控、语音或手势，去操作一个个独立的App。AI更像是一个“语音助手”插件，负责调用某个App的特定功能。

而之后，完全不同。当你戴上升级后的Rokid眼镜，你的视野中不再是排列整齐的App图标。取而代之的，是一个始终在线的、极简的“AI助手”。当你需要完成某个任务时，你不再需要思考“我该点开哪个App”，而是直接说出你的意图，或者让AI Agent通过观察你的行为来预测你的意图。而Rokid一旦走到了这个层次，AI Agent就成为整个UI的中心和“大脑”。

Rokid推进AIUI，Misa的野心，将眼镜从一个“可穿戴的显示器”，彻底转变为一个“可穿戴的智能体”。它的易用性能得到指数级的提升，用户不再需要学习和适应复杂的UI操作逻辑，UI退居幕后，前台是善解人意的AI。这种交互方式，比Meta Ray-Ban的“语音+简单图像识别”又向前迈进了一大步。

就像前文设想的AIUI的完整形态：多模态融合、上下文感知、主动式服务。倘若Rokid的这次更新，验证了GUI Agent和AI-native UI的可行性，当AI Agent不仅能理解用户的意图，还能通过视觉-语言推理思维链，自动完成跨应用、长链条的复杂任务时，AI眼镜市场一定能迎来爆发式增长。

用户不再需要记住“哪个App做什么”，不再需要学习“如何操作这个界面”，他们只需要表达自己想要什么，剩下的交给AI。这就是我们想要的。

Rokid可能正在向所有从业者展示，即使在现有硬件条件（不是最前沿、最昂贵的传感器）下，通过AI软件和系统架构的创新，依然可以实现飞跃式的用户体验提升。当AI Agent成为交互的核心，当UI变得如此智能以至于“消失”时，AI眼镜就成为了一种与人共生的数字器官。