多模态AI狂飙,超能小度如何重构智能硬件
2025年,AI硬件迎来了真正意义上的元年。
经过2024年GPT-4o与Gemini 1.5的技术升级,多模态大模型具备了从理论研究走向应用落地的可能。AI不再局限于文本生成或语音问答,还能够看懂画面、感知环境、主动响应。AI硬件终于不必只是极客群体的“玩具”,而是能真正进入大部分人的生活。也因此,这一年,AI硬件几乎以爆发式的频率登上舞台。
从录音笔、摄像机、音箱,再到眼镜、戒指、项链,每一件都在被重新定义:有人追求即时记录的效率,有人探索更拟人、更沉浸的交互,也有人看重情绪与语义的连接。但无论形态如何,这些都是AI无限贴近人类的尝试。
这背后更宏大的思考是:AI应该以怎样的形态融入物理世界?
就在这样的时间点,11月13日,小度在世界大会智能硬件分论坛上推出了全新多模态AI智能助手——超能小度。不同于多数AI硬件创业公司押注单一场景,小度选择全面重塑,将其全系、全量、全生态产品,都进行了一轮升级。
其中,搭载了超能小度的硬件新品——小度AI眼镜Pro与小度智能摄像机C1200三摄版和C800视频通话版、小度智能音箱Fun等也在论坛一同亮相。
小度想抢占的,是AI与现实世界的交界。“小度从诞生之日起,始终追求的是人机交互的革命。而超能小度正是这一使命的全新载体。”小度科技CEO李莹在现场表示。
01
从助手到伙伴,小度的超能进化
如果只把AI当作硬件的附加价值,那无论硬件形态如何变化、软件功能如何丰富,本质都只是技术的堆叠;只有当AI成为驱动硬件交互变革的原生推动力,甚至将其重新定义,才有可能推动“下一代人机关系”的真正到来。
当全球硬件厂商大多在比拼“如何把AI助手更好地植入设备”时,小度选择的是,聚焦AI助手本身在“感知、学习、记忆”的能力进化,并以此反推硬件产品创新。
超能小度的发布,正是这一逻辑的极致体现。
在原有语音交互能力之上,作为多模态AI智能助手,它还具备了图像、视频等视觉信息的处理能力,甚至能够结合对周边环境信息的感知,进行复杂的推理与规划。
发布会现场的一个案例,令人尤为印象深刻——“智能寻物”:当你对着摄像机问一句“我把遥控器放哪儿了”,超能小度就会先扫描当前屋内的实时画面;如果没有找到,还会自动回溯过去24小时、甚至是更长时间段内的历史画面,来定位遥控器最后一次出现的时间和位置,并展示当时的视频记录。
虽然解决的是“找不到遥控器”这个日常难题,但这个设想背后的意义,却远不止于此。
从技术层面来说,这意味着,AI不仅要能“看见”和“看清”物体,更得能“看懂”空间和时序关系,从而构建起对真实世界多维的、动态的映射——而这也是大模型目前面临的主要挑战之一。
小度将此次超能小度的升级,总结为三大进化:
1.从单点响应到全局理解:不再局限于单次指令执行,而是能够进行上下文深度理解,并结合时间、空间、人物、行为等综合判断,实现更加全面、多维的感知决策。
2.从被动智能到主动智能:不同于过去“你呼我应”“你问我答”的交互模式,而是主动理解、分析、甚至是预判用户需求,并提供解决方案。
3.个性化记忆强化:不仅能记住习惯和偏好,还能洞察语气与情绪,察言观色、想你所想、懂你所需,让人机关系真正从“工具”迈向“伙伴”。
现场李莹还宣布,超能小度的全系、全量、全生态上线,除了覆盖包括小度AI眼镜、小度智能摄像机、小度智能音箱Fun等新品外,其数千万台已售设备也都将可以免费升级,实现更加自然、深度和贴心的人机交互体验,让“AI助手”真正完成向“AI伙伴”的跨越进阶。
02
当AI伙伴走进物理世界
发布会上,已全面搭载超能小度的多款硬件新品,也成为了全场焦点。
以小度AI眼镜为例,据介绍,其搭载高通骁龙AR1芯片,配备索尼1200万像素109°超广角镜头,支持4K照片和1440p视频拍摄,并内置EIS智能防抖;采用开放式防漏音双扬声器和五麦克风阵列协同收声设计,结合逆声场定向声学系统、自研ENC通话降噪算法等,可有效降低通话、听歌和语音交互场景下的噪音干扰。
续航方面,综合模式下单次连续使用时长可达约7.5小时,搭配随附的智能充电盒,则能够达到约68小时,确保日常使用无忧。
此外在外观和佩戴体验上,小度AI眼镜Pro机身仅重39克。现场展示中,可以看到,除了有波士顿、猫眼两款框型外,小度还推出了墨镜和光致变色镜片可供选择,并配备可调节的软硅胶材质鼻托,在时尚感、使用场景和脸型适配等方面,都做了优化。
当然,AI眼镜市场竞争火热,拼“硬功夫”,更拼“软实力”。
作为国内较早布局该领域的厂商之一,小度通过升级多模态智能,也在其AI眼镜的实际功能体验上,展现出软硬结合下“1+1>2”的不俗效果。
比如,当你不方便掏手机,又需要记录停车位或小区物业通知时,只需跟小度说一句“帮我记一下”,眼镜便会自动拍照、解析并生成备忘,让你可以随时询问“我的车停哪了”“明天几点会停水”,甚至一键拨打物业电话,真正实现了“随看随记,随问随得”。
在办公场景中,AI的作用更被进一步放大:眼镜的“AI会议纪要”功能,在常规的录音转写、内容总结的基础上,不仅可以拍照记录下重要的板书、PPT等会议资料,自动匹配至纪要的对应位置,还支持进一步洞察发言人意图和分析潜在争议点等等,并生成沟通策略、后续推进指引、流程提效等多种优化建议。
据悉,该功能也将在今年12月正式上线。
此外,小度与网易云音乐联合打造的“氛围歌单”功能,还让AI拥有了更柔性的表达。当你说“给我来首应景的歌”,眼镜就会根据眼前的画面,为你生成专属的BGM——无论是黄昏街头的光影,还是山顶俯瞰的风景,都能被AI捕捉并谱写成一段情绪的旋律。
类似的场景不胜枚举,通过眼镜这个随身载体,超能小度融入了我们日常的每一刻。
李莹提到,如果说AI眼镜作为我们感官的延伸,实现了“第一视角智能”,智能摄像机对周边环境的感知理解,则将开启另一种全新的——“上帝视角智能”。
此次小度推出的两款智能摄像机:
一款是带有屏幕的视频通话版本,主打家里有老人和孩子的家庭,支持便捷、流畅的双向微信视频通话;而最新发布的、搭载三个摄像头的小度智能摄像机C1200,通过云台长+短焦镜头和固定超广角镜头的组合设计,不仅可以双画面联动,更好地追踪移动目标,10倍光学混合变焦还能够实现高清的细节捕捉,也更为适合有宠人群。
同样基于超能小度的多模态能力加持,小度智能摄像机还打造了“AI随心看护”功能,能够识别人、宠等特定对象的具体行为,在理解画面语义的基础上,主动进行干预——比如孩子学习姿势异常时主动语音提醒,宠物拆家时出动扫地机器人进行威慑等等。
可见,如今Chatbot式的一问一答,已很难满足人们对更高层次智能应用的想像。
让无形的智能,走进真实的生活,理解我们当下所经历的事情,主动提供帮助和陪伴,或许才是更加值得期待的AI形态。
03
多模态不是终点
从十年前的Siri到智能音箱时代的小度,人们一直在尝试用对话打开智能的入口——语音交互几乎是所有智能硬件的标配,带来了便利,却始终难以成为刚需。
近两年来,随着多模态技术的快速发展,大模型竞速的焦点也在迅速转向:OpenAI GPT-4o首次用一个模型实现文本、图像、音频、视频的实时多模态理解和生成;Google基于Gemini的Project Astra智能体,可以通过摄像头和麦克风进行观察并理解周围环境,且具备超长上下文记忆能力;Meta在其跟Ray-Ban合作推出的智能眼镜中,也在探索加入包括视觉问答在内的更多多模态AI应用。
在这个行业叙事下,小度此次“超能”进化,其实选择了一条更漫长、但也更能给用户带来长期价值的路径:从语音、视觉到情绪,从理解指令到理解人,真正实现对“AI助手”的重新定义。
正如李莹在现场所说,“AI是赋予智能硬件灵魂、开启全新想象空间的核心所在”——从智能音箱、智能屏、闺蜜机、健身镜、学习机,再到如今的AI眼镜、智能摄像机,小度每一次的产品演进,都清晰地指向这同一个目标。
如果设备只是“被放在那里”,却无法被真正使用,那么AI的价值就无从体现。反过来,若AI能够借由硬件,和使用者形成交互与陪伴,那才是人与科技共生的起点。
市场趋势也在印证这这种思路:Global Market Insights报告指出,2024年全球AI硬件市场规模约为59亿美元,预计2025年将增长至668亿美元,且预计到2034年将达约2963亿美元,年复合增长率约18%;Coherent Market Insights报告中,“On-Device AI”市场(即可穿戴终端设备上运行AI的部分)在2025年估算为266.1亿美元,预计到2032年将扩展至1240.7亿美元,年复合增长率约24.6%。
面向行业的快速增长,小度通过全新多模态AI助手的发布与新老设备的普惠升级,也进一步明确了其“以AI为核心、以硬件为载体”的战略卡位。
根据官方数据,目前小度自有品牌产品的渗透率已经达到5400万户,并且还在不断增长中。同时,超能小度也将以智能引擎的方式开放出去,让酒店、养老等更多行业伙伴也能实现能力升级,成为各类厂商可以调用的AI能力底座。“希望大家一起为用户创造更智能、便捷、人性化的体验。”李莹说道。
站在2025年的节点回望,从大家熟知的语音助手,再到如今的多模态AI助手,超能小度的进化,不仅仅是技术的迭代升级,更在重塑人、机器与世界的连接。
当语言、图像、声音的壁垒终于被打破——机器从被动的工具,蜕变为能听、能看、能说、能思的数字伙伴,这场关乎人机交互未来形态的革命,才刚刚开始。















