AI原生硬件的第一战,阿里如何用眼镜作答?
当大模型从生成走向完成的阶段,所有科技公司都在问同一个问题:AI真正融入人类生活的那一刻,会从哪里开始?是网页?是App?还是某种随身新终端?答案正在逐渐清晰:硬件,可能是AI原生时代最重要的起点。
大型科技公司在用AI硬件的方式探索下一代入口形态。这些尝试指向一个共识:手机不一定是AI最好的容器,屏幕很难承载持续的对话、感知与主动服务。
对 AI 足够有野心的科技大公司不可能放弃硬件。
在这样的背景下,阿里巴巴在2025世界人工智能大会上发布了首款自研AI眼镜——夸克AI眼镜。
从去年AI硬件成为行业热点开始,发布会、demo层出不穷。但这次发布,不仅是一次消费电子产品的亮相,更是阿里自整合AI To C业务以来,第一个真正意义上将AI能力装进物理终端的落地动作。
阿里也成为继Meta之后,全球范围内第二个真正以大模型能力驱动智能眼镜落地的科技平台型公司。
AI+硬件+生态协同,阿里全栈能力的实体化载体
阿里正在密集布局在C端打穿用户的场景通路。2024年年底,通义APP并入阿里智能信息事业群,与夸克共同落地AI to C战略,其中夸克被明确为阿里的AI旗舰应用。这一架构的变化,初步划定了阿里在大模型时代的战略路径。
进入 2025 年后,夸克逐渐成为这个系统中最明确、也最具势能的接口:
3月,夸克宣布全面升级为“AI 超级框”——一个融合对话、搜索、执行与决策的智能任务中枢,不再是传统意义上的搜索框;
6月高考季期间,夸克推出“高考深度搜索”、“智能志愿报告”、“智能选志愿”等功能,累计生成超 1200 万份个性化志愿报告,三四线考生群体占比过半;
7月,在大模型公司纷纷争夺“AI+健康”场景的背景下,夸克健康大模型通过了国内 12 门核心学科主任医师级别的评测,成为首个进入消费级产品体系的“主任级 AI 医生”。
眼下呈现出的每一次突破,其实都是早期长期投入的结果。夸克AI 眼镜的落地,也是这样一次水到渠成。
这条路径最终由夸克承接,并非偶然——作为阿里体系内少有的“中立型”工具产品,夸克在年轻人群体中的口碑极佳,又在语音、语义、图像等底层能力上具备长期积累,叠加其在搜索、健康、教育等场景中验证过的产品-算法耦合机制,使其成为AI助手形态最合适的落地载体。
早在2025年1月,36氪就曾报道,夸克团队正在探索AI眼镜。这次,阿里选择以一副眼镜作为突破口,进入大模型时代的硬件终端赛道。
它不只是一次产品的亮相,更是阿里 AI to C 战略的一次具象表达。AI 眼镜被定义为超级入口的物理世界承载体,通过它,打造一位真正具备感知与行动能力的随身 AI 助手。
这个定位,也反映出阿里对新一代终端形态的判断:下一个入口,一定不止是软硬件拼装、叠加的缝合怪,而是“模型+硬件+生态”一体化能力的闭环输出。
具体来看,这副眼镜融合了阿里在多个维度上的能力:
从硬件看,夸克AI眼镜团队具备深厚的终端经验,核心成员大多来自硬件行业;
在软件与算法上,夸克在语音识别、语义理解和图像问答上的能力,过去几年已在App中得到验证,并在此基础上构建了基于通义千问的多款垂直场景模型;
最终,结合飞猪旅行、阿里商旅、高德、支付宝、淘宝等生态能力,构成从场景、指令、调用到反馈的多环协同链路。
正是这些能力,定义了夸克 AI 眼镜区别于同类产品的几个核心特征,夸克AI 眼镜负责人宋刚告诉我们:首先它必须是一副好戴的眼镜;其次是全天候可用的智能终端;最核心的,是随身的AI 超级助手。“我们把超级AI助手排在第一位。”
从设备变成助手,不只是口号,更体现在功能定义上。团队没有选择从显示端角度突破,而是强调语音交互、第一视角拍摄、识别问答等“高频刚需”场景,在早期产品阶段,聚焦于打造可持续使用的基础能力。
在实际交互中,夸克 AI 眼镜搭载语音与多模态大模型,具备语义理解、多轮对话、百亿级图像检索等核心能力。即使是复杂光线、口音差异等现实条件与测试环境不一致,其识别与响应表现相对稳定。
结合阿里本身的业务,能联动出更多场景,比如,现在可以基于骨传导做声纹支付;比如眼镜以感受到人体的健康、运动数据作为多模态输入数据;
“我们可以提供闭环的体验。”宋刚表示。
综合能力的具备让夸克AI眼镜从一个单一功能的拍摄设备,进化为真正可以伴随用户衣食住行、学习办公的个人助手。
路径和逻辑已相对清晰,真正难的是执行落地。对阿里而言,这不仅是一场对新硬件形态的探索实验,更是一次验证其 AI 全栈能力能否闭环的关键战役。
一副眼镜的边界,在哪 ?
乔布斯 1990 年接受波士顿公共电视频道采访时曾说:“用户无法预测他们没见过的产品。只有把产品摆在眼前,用户才能反馈有用的意见。”
直到今天,普通消费者仍然很难想象什么才是AI硬件的最终形态。大模型对C端用户的介入,大多还停留在手机屏幕上。
但无论是Ray-Ban Meta,还是夸克AI眼镜,巨头们显然都在寻找下一代终端——一个能够真正改变交互方式、同时承担入口和出口角色的物理形态。
夸克AI眼镜不想只是简单地把App搬到硬件中,也不想像其他国内AI眼镜一样复制Ray-Ban Meta。夸克AI眼镜想做的,而是一次基于全新交互逻辑的尝试。
虽然Meta也在做眼镜,但两者的逻辑并不一样。Ray-Ban Meta 走的是轻社交、拍照分享的路径,强调的是“记录”,而夸克AI眼镜更强调理解与执行——Meta 更像是让眼镜“拍下你看到的世界”,而夸克则是“理解你面对的世界”。前者更像硬件形态的Instagram,后者才是新的AI助手。
也正因为如此,它并不适合所有公司做。
所以,产品定义从一开始就围绕“高频生活场景”展开。AI眼镜所覆盖的,并不是单点炫技式的AI功能,而是对用户“看不清、记不住、解不出”的通用需求做出响应。在发布会展示的飞猪旅行提示行程信息场景中,用户只需一句“我几点登机”,眼镜便可自动调用行程数据,在镜片上显示登机口信息,免去掏出手机、查找App的繁琐动作。如果再叠加高德的室内导航能力,整条路径都可以通过语音完成指引。
这类场景的背后,是阿里内部多个BU与夸克联合组建的专项开发团队。不是单纯接入API,而是以“Agent”化为导向进行深度定制,推动业务从被动响应向主动服务过渡。除了飞猪、阿里商旅,高德、支付宝、淘宝等也已启动类似合作:比如扫码支付、搜同款比价、骑行导航、快递提醒等功能,都在构建不同生活节点中的微型AI链路。
这件事之所以能做,也只有阿里能做,因为阿里过去多年就处理、打通了我们的衣食住行种种事务,生态已在,只需激活。而对其他公司而言,哪怕想得再远,卡住的往往不是想法,而是通路——往往还需另起炉灶、逐一对接,每一个断点,都会拖累 AI 产品的最终落地。
在功能实现上,几个AI眼镜当前普遍面临的能力边界,也正在被逐一击破。
比如语音交互方面,夸克AI眼镜配备5个麦克风+骨传导系统,即使在嘈杂环境下也能精准唤醒,并通过通义千问模型理解多轮指令意图,再由自研的Master Agent中控系统智能分发,大幅降低响应延迟。在图像问答(VQA)场景下,夸克结合自研的图像模糊检测算法、SuperRAW 技术与百亿级图像检索能力,加上通义千问大模型的推理支持,使识别响应速度与答案质量更高。
多模态能力整合,使得夸克AI眼镜相较于其他能拍照的AI眼镜,在拍照之外,更具备理解能力,在逛博物馆、路遇不熟悉植物、街拍打卡等场景中,用户可以对眼前物体提问,获得准确即时的AI讲解。
但边界不止于此。
互联网公司做硬件的一个通病是,只顾着软件,而忽视了硬件。Web时代和App时代的成功,让互联网公司习惯了快速迭代、小步快跑,但这并不利于研发消费电子等硬件产品,因为硬件的开发周期长得多,比如苹果在推出划时代的 iPhone 4 前研发了快 2 年。
好在夸克团队有足够多的硬件人才,才能洞察到硬件的需求和瓶颈——在具体设计上,团队尝试解决续航与佩戴体验难以兼得的行业通病,采用可拔插镜腿与耳机盒大小的随身换电仓设计,让用户可以随时更换电池,实现全天候续航;配备双芯片系统,根据负载智能切换主控芯片,以控制功耗;同时使用钛合金等轻量材料,镜腿支持弹性调节并适配不同头围,配合鼻托与耳弯的人体工学结构,尽量减少长时间佩戴带来的压迫感。
团队并不讳言这场挑战的复杂性。正如宋刚所说:“AI眼镜完整体验链路比较长,所以你不能有明显能力短板,你一有明显短板,容易导致体验不闭环,用户就可能很难相信你做能做出体验很好的产品。”
AI眼镜作为新终端的使命,并不是一次性的功能堆叠,而是要在人与世界之间,真正找到一种轻巧、高效、可被信赖的交互方式。
入口之争, 也是 范式之争
其实,硬件作为AI入口的尝试,并不仅限于眼镜。早在 2017 年,中国的互联网大厂就已经开启了智能音箱之争。
但当时的AI能力尚不足以支撑复杂交互。音箱能接指令、能唤醒,但当用户真正想让AI执行什么任务,就会卡住。
而这一切,随着大模型的到来发生了根本性变化——理解上下文、连续对话、主动服务——或许新的人机交互形式正在出现:比如,新终端被需要,不是触屏,不是图标,也不是网页,而是一个能够时刻感知、抢先理解的载体。
手机虽然强大,但它是主动使用的设备,必须被拿出来、点开App、发出明确指令才能交互;而AI时代真正理想的终端,是默认在线的:不需要你先动手,它先听懂,再行动。
眼镜天然处于人的视线与听觉范围内,拥有比手机更优的第一视角感知能力。配合大模型对视觉、语言、知识的统一理解,它可以实时识别人类眼前的世界、主动推送信息、实现多模态的混合指令,替代各类复杂的操作步骤。
AI眼镜的意义,可能不是下一个爆款硬件,而是下一代操作系统的物理接口。
这也是为什么,包括Meta、阿里、字节、Google在内的全球科技平台公司都不约而同地把目光投向AI硬件,不论是耳机、眼镜、投影还是戒指,本质上都是在回答同一个问题:当AI真正变得强大之后,我们如何让它变得随时可用?入口在哪里?谁拥有它?
今天,阿里通过夸克AI眼镜迈出的这一步,正是对这一问题的系统性回应。
本文来自微信公众号“智能涌现”,作者:晓曦,36氪经授权发布。