多模态AI狂飙，超能小度如何重构智能硬件

碧根果·2025年11月17日 21:00

让“AI助手”向“AI伙伴”进阶。

2025年，AI硬件迎来了真正意义上的元年。

经过2024年GPT-4o与Gemini 1.5的技术升级，多模态大模型具备了从理论研究走向应用落地的可能。AI不再局限于文本生成或语音问答，还能够看懂画面、感知环境、主动响应。AI硬件终于不必只是极客群体的“玩具”，而是能真正进入大部分人的生活。也因此，这一年，AI硬件几乎以爆发式的频率登上舞台。

从录音笔、摄像机、音箱，再到眼镜、戒指、项链，每一件都在被重新定义：有人追求即时记录的效率，有人探索更拟人、更沉浸的交互，也有人看重情绪与语义的连接。但无论形态如何，这些都是AI无限贴近人类的尝试。

这背后更宏大的思考是：AI应该以怎样的形态融入物理世界？

就在这样的时间点，11月13日，小度在世界大会智能硬件分论坛上推出了全新多模态AI智能助手——超能小度。不同于多数AI硬件创业公司押注单一场景，小度选择全面重塑，将其全系、全量、全生态产品，都进行了一轮升级。

其中，搭载了超能小度的硬件新品——小度AI眼镜Pro与小度智能摄像机C1200三摄版和C800视频通话版、小度智能音箱Fun等也在论坛一同亮相。

小度想抢占的，是AI与现实世界的交界。“小度从诞生之日起，始终追求的是人机交互的革命。而超能小度正是这一使命的全新载体。”小度科技CEO李莹在现场表示。

01 从助手到伙伴，小度的超能进化

如果只把AI当作硬件的附加价值，那无论硬件形态如何变化、软件功能如何丰富，本质都只是技术的堆叠；只有当AI成为驱动硬件交互变革的原生推动力，甚至将其重新定义，才有可能推动“下一代人机关系”的真正到来。

当全球硬件厂商大多在比拼“如何把AI助手更好地植入设备”时，小度选择的是，聚焦AI助手本身在“感知、学习、记忆”的能力进化，并以此反推硬件产品创新。

超能小度的发布，正是这一逻辑的极致体现。

在原有语音交互能力之上，作为多模态AI智能助手，它还具备了图像、视频等视觉信息的处理能力，甚至能够结合对周边环境信息的感知，进行复杂的推理与规划。

发布会现场的一个案例，令人尤为印象深刻——“智能寻物”：当你对着摄像机问一句“我把遥控器放哪儿了”，超能小度就会先扫描当前屋内的实时画面；如果没有找到，还会自动回溯过去24小时、甚至是更长时间段内的历史画面，来定位遥控器最后一次出现的时间和位置，并展示当时的视频记录。

虽然解决的是“找不到遥控器”这个日常难题，但这个设想背后的意义，却远不止于此。

从技术层面来说，这意味着，AI不仅要能“看见”和“看清”物体，更得能“看懂”空间和时序关系，从而构建起对真实世界多维的、动态的映射——而这也是大模型目前面临的主要挑战之一。

小度将此次超能小度的升级，总结为三大进化：

1.从单点响应到全局理解：不再局限于单次指令执行，而是能够进行上下文深度理解，并结合时间、空间、人物、行为等综合判断，实现更加全面、多维的感知决策。

2.从被动智能到主动智能：不同于过去“你呼我应”“你问我答”的交互模式，而是主动理解、分析、甚至是预判用户需求，并提供解决方案。

3.个性化记忆强化：不仅能记住习惯和偏好，还能洞察语气与情绪，察言观色、想你所想、懂你所需，让人机关系真正从“工具”迈向“伙伴”。

现场李莹还宣布，超能小度的全系、全量、全生态上线，除了覆盖包括小度AI眼镜、小度智能摄像机、小度智能音箱Fun等新品外，其数千万台已售设备也都将可以免费升级，实现更加自然、深度和贴心的人机交互体验，让“AI助手”真正完成向“AI伙伴”的跨越进阶。

02 当AI伙伴走进物理世界

发布会上，已全面搭载超能小度的多款硬件新品，也成为了全场焦点。

以小度AI眼镜为例，据介绍，其搭载高通骁龙AR1芯片，配备索尼1200万像素109°超广角镜头，支持4K照片和1440p视频拍摄，并内置EIS智能防抖；采用开放式防漏音双扬声器和五麦克风阵列协同收声设计，结合逆声场定向声学系统、自研ENC通话降噪算法等，可有效降低通话、听歌和语音交互场景下的噪音干扰。

续航方面，综合模式下单次连续使用时长可达约7.5小时，搭配随附的智能充电盒，则能够达到约68小时，确保日常使用无忧。

此外在外观和佩戴体验上，小度AI眼镜Pro机身仅重39克。现场展示中，可以看到，除了有波士顿、猫眼两款框型外，小度还推出了墨镜和光致变色镜片可供选择，并配备可调节的软硅胶材质鼻托，在时尚感、使用场景和脸型适配等方面，都做了优化。

当然，AI眼镜市场竞争火热，拼“硬功夫”，更拼“软实力”。

作为国内较早布局该领域的厂商之一，小度通过升级多模态智能，也在其AI眼镜的实际功能体验上，展现出软硬结合下“1+1＞2”的不俗效果。

比如，当你不方便掏手机，又需要记录停车位或小区物业通知时，只需跟小度说一句“帮我记一下”，眼镜便会自动拍照、解析并生成备忘，让你可以随时询问“我的车停哪了”“明天几点会停水”，甚至一键拨打物业电话，真正实现了“随看随记，随问随得”。

在办公场景中，AI的作用更被进一步放大：眼镜的“AI会议纪要”功能，在常规的录音转写、内容总结的基础上，不仅可以拍照记录下重要的板书、PPT等会议资料，自动匹配至纪要的对应位置，还支持进一步洞察发言人意图和分析潜在争议点等等，并生成沟通策略、后续推进指引、流程提效等多种优化建议。

据悉，该功能也将在今年12月正式上线。

此外，小度与网易云音乐联合打造的“氛围歌单”功能，还让AI拥有了更柔性的表达。当你说“给我来首应景的歌”，眼镜就会根据眼前的画面，为你生成专属的BGM——无论是黄昏街头的光影，还是山顶俯瞰的风景，都能被AI捕捉并谱写成一段情绪的旋律。

类似的场景不胜枚举，通过眼镜这个随身载体，超能小度融入了我们日常的每一刻。

李莹提到，如果说AI眼镜作为我们感官的延伸，实现了“第一视角智能”，智能摄像机对周边环境的感知理解，则将开启另一种全新的——“上帝视角智能”。

此次小度推出的两款智能摄像机：

一款是带有屏幕的视频通话版本，主打家里有老人和孩子的家庭，支持便捷、流畅的双向微信视频通话；而最新发布的、搭载三个摄像头的小度智能摄像机C1200，通过云台长+短焦镜头和固定超广角镜头的组合设计，不仅可以双画面联动，更好地追踪移动目标，10倍光学混合变焦还能够实现高清的细节捕捉，也更为适合有宠人群。

同样基于超能小度的多模态能力加持，小度智能摄像机还打造了“AI随心看护”功能，能够识别人、宠等特定对象的具体行为，在理解画面语义的基础上，主动进行干预——比如孩子学习姿势异常时主动语音提醒，宠物拆家时出动扫地机器人进行威慑等等。

可见，如今Chatbot式的一问一答，已很难满足人们对更高层次智能应用的想像。

让无形的智能，走进真实的生活，理解我们当下所经历的事情，主动提供帮助和陪伴，或许才是更加值得期待的AI形态。

03 多模态不是终点

从十年前的Siri到智能音箱时代的小度，人们一直在尝试用对话打开智能的入口——语音交互几乎是所有智能硬件的标配，带来了便利，却始终难以成为刚需。

近两年来，随着多模态技术的快速发展，大模型竞速的焦点也在迅速转向：OpenAI GPT-4o首次用一个模型实现文本、图像、音频、视频的实时多模态理解和生成；Google基于Gemini的Project Astra智能体，可以通过摄像头和麦克风进行观察并理解周围环境，且具备超长上下文记忆能力；Meta在其跟Ray-Ban合作推出的智能眼镜中，也在探索加入包括视觉问答在内的更多多模态AI应用。

在这个行业叙事下，小度此次“超能”进化，其实选择了一条更漫长、但也更能给用户带来长期价值的路径：从语音、视觉到情绪，从理解指令到理解人，真正实现对“AI助手”的重新定义。

正如李莹在现场所说，“AI是赋予智能硬件灵魂、开启全新想象空间的核心所在”——从智能音箱、智能屏、闺蜜机、健身镜、学习机，再到如今的AI眼镜、智能摄像机，小度每一次的产品演进，都清晰地指向这同一个目标。

如果设备只是“被放在那里”，却无法被真正使用，那么AI的价值就无从体现。反过来，若AI能够借由硬件，和使用者形成交互与陪伴，那才是人与科技共生的起点。

市场趋势也在印证这这种思路：Global Market Insights报告指出，2024年全球AI硬件市场规模约为59亿美元，预计2025年将增长至668亿美元，且预计到2034年将达约2963亿美元，年复合增长率约18%；Coherent Market Insights报告中，“On-Device AI”市场（即可穿戴终端设备上运行AI的部分）在2025年估算为266.1亿美元，预计到2032年将扩展至1240.7亿美元，年复合增长率约24.6%。

面向行业的快速增长，小度通过全新多模态AI助手的发布与新老设备的普惠升级，也进一步明确了其“以AI为核心、以硬件为载体”的战略卡位。

根据官方数据，目前小度自有品牌产品的渗透率已经达到5400万户，并且还在不断增长中。同时，超能小度也将以智能引擎的方式开放出去，让酒店、养老等更多行业伙伴也能实现能力升级，成为各类厂商可以调用的AI能力底座。“希望大家一起为用户创造更智能、便捷、人性化的体验。”李莹说道。

站在2025年的节点回望，从大家熟知的语音助手，再到如今的多模态AI助手，超能小度的进化，不仅仅是技术的迭代升级，更在重塑人、机器与世界的连接。

当语言、图像、声音的壁垒终于被打破——机器从被动的工具，蜕变为能听、能看、能说、能思的数字伙伴，这场关乎人机交互未来形态的革命，才刚刚开始。

本文由「碧根果」原创出品，转载或内容合作请点击转载说明；违规转载必究。

寻求报道