云端携手:AI如何定义下一代智能终端?
新一轮的人工智能浪潮,正从云端涌向我们身边的每一块屏幕、每一个设备。从AI PC、AI手机到形态各异的智能机器人,一场产业变革正在加速。这并非简单的功能移植,而是一场AI与终端体验共同驱动的演进,将重塑人与机器的交互方式。
然而,当AI走向终端,它所面临的挑战远比想象中复杂。如何平衡成本与体验?如何保障数据安全与隐私?如何让通用的大模型适应千行百业的独特需求?
一个明确的行业共识是:端侧智能的崛起,并非要与云端割裂,而是要构建一种“云端协同”的智能模式。这种模式不再是简单的任务分配,而是一种基于场景需求的精密布局,目的是实现体验、成本与安全的最佳平衡。在实际落地中,这种协同策略主要由四大核心驱动力决定:
● 实时性与安全性。 在机器人、自动驾驶等领域,毫秒级的延迟都可能引发安全问题。机器人“神经级别的控制”必须在端侧完成闭环,仅依赖云端往返通信的风险是不可接受的。这是端侧算力不可替代的核心价值,它保证了智能设备在关键时刻的可靠性。
● 数据隐私与合规。 用户数据的隐私保护至关重要。部分数据不适合直接上传云端,本地化处理成为必然选择。这意味着必须在端侧部署足够强大的模型来处理敏感信息。
● 成本与效率的平衡。 将高频、相对简单的任务放在端侧,可以极大降低云端推理成本;而对于知识问答、复杂逻辑推理、模型迭代升级等“重活”,则交由算力更充沛、效率更高的云端来完成。这种精细化的分工,是实现规模化商业部署的关键。
● 全局协同与优化。云端更像是是一个协同与管理平台。它将分散的终端设备整合为一个有机整体,通过全局视角确保系统的最优运行,通过集群调度实现“1+1>2”的协同效应,从而解决了大规模设备部署的管理难题。
打造体验卓越的智能终端,是一项复杂的系统工程,远非单一企业能够独立完成。硬件、云平台、算法、数据,产业链的每一个环节都不可或缺。一个开放、协作的生态系统,成为推动行业前行的共识。
在这个生态中,角色分工明确:硬件厂商提供物理载体,算法公司专注于核心模型的研发与优化,而像阿里云这样拥有全栈AI云能力的平台,则扮演着“智能基石”的角色。提供的不仅是模型本身,更是一整套从底层算力、数据处理、模型训练与部署到应用开发的“全栈式”服务。这使得创新者可以将精力聚焦于自身最擅长的领域——无论是对用户需求的洞察,还是对人机交互的理解,从而加速产品的研发与迭代。
以下为36氪研究院院长邹萍与视源股份未来教育集团(希沃)副总裁黄柏林、银河通用联合创始人张直政、心言集团具身智能资深算法工程师颜鑫、阿里云智能集团通义大模型解决方案总监郑海超的对话内容,经36氪编辑整理:
01. 端侧智能落地的路径选择和方法论
36氪:有的企业选择在端侧部署小模型,也有选择通过云端调用的方式给用户提供服务,各位是怎么选择自己的技术发展路径的?
黄柏林:首先应该回到客户的需求。希沃是一个教育品牌,做的是教育信息化。我们比较有代表性的是一款叫希沃学习机的产品,不同年龄层次的孩子的需求是不一样的,大模型在端侧还是云侧,我们考量更多的是能否匹配孩子在那个年龄段的需求。
我们现在选择的技术路径是端+云的方式。比如图像识别这种传统模型可以解决的问题,我们就放在端侧,相对复杂的非标准的问题放到云端,最终还是服务于客户需求。
张直政:大模型对具身智能这个领域带来的改变是让机器人有一个聪明的大脑,银河通用希望构建由大模型驱动的机器人。
传统的机器人运动控制是靠硬编程,这就意味着要把它的动作写死,比较关心重复定位精度。有了大模型以后,它最大的意义就是我们可以直接以任务的成功率为导向来构建机器人的大脑。
那有一个聪明的大脑意味着什么?第一意味着机器人的泛化能力有质的飞跃,第二它不是一个单点替代的关系,会引起整个协作关系和交互方式的重构,第三点在于大模型把数据、模型、算力整个闭环打通,当我们把具身智能大模型投入到具体的场景里面去,它可以自我学习、自我迭代,形成一个完整的解决方案,然后给千家万户、千行百业赋能,最终形成生产力。
颜鑫:心言集团主要在做的机器人是以情感智能为核心的情感陪伴机器人。
我们采用了云边端结合的策略,在端侧机器人通过模型的方式去感知多模态的、非结构化的数据,需要去提供实时性、鲁棒性、安全性的支撑和服务。在云端的时候,更多的还是会采用更大参数的模型去提供更多的规划,更多的决策能力。
36氪:阿里云作为一个赋能千行百业的数字化平台,为了应对这些分散在各个行业中的点状问题,能否总结出来一些业务落地的方法论?
郑海超:我觉得从更广泛的视角来看,最终还是要看企业真正场景的落地和整个商业价值的闭环。落地的时候是三个结合——
第一就是大模型跟小模型的一个结合。为了完成一个完整的业务,有可能需要端上部署一些小的模型,如果发现需要更大尺寸的模型才能得出一个非常好的结果,那还是要到云上去。
第二个是云和端结合,比如说语音场景对时延更敏感,需要做一些前置的处理,还有一些安全跟隐私相关的数据,用户更希望把这些东西放到端上。
第三个是生成式大模型跟判别式的模型结合。做业务不一定都要用模型的方式,其实还可以写规则,如果很简单的一个事命中了规则直接就走掉了,不需要过大模型。因为大模型肯定会带来时间跟成本的上升,并且端上的算力相对有限。所以说从真正业务落地的角度来讲,我们认为关键还是这三个结合。
02. 端侧AI规模化落地的技术攻坚
36氪:银河通用从初期探索到规模化落地,在模型的轻量化、算力的适配和推理优化等环节当中,具体遇到过哪些技术卡点,探索出哪些解决方案?
张直政:银河通用希望把最前沿的具身智能大模型,推广到不同的场景里面去。
比如说工业场景非常注重隐私,也非常注重干活的节拍和效率,所以神经级别的控制需要放在端侧。在多样化场景和需求背后统一的思考什么呢?第一跟安全性相关的行为,第二是时延的问题,第三是数据的隐私性,例如涉及到用户隐私的数据只能放在端侧去处理,不能放在云端。
那把什么放在云端呢?第一我们把学习的过程尽可能放在云端,因为云端的算力更加充沛,学习效率更高;第二是对延迟要求比较低,但对复杂性要求比较高的情况,比如说我们让机器人去解一个被缠绕的线束。
36氪:从软件到硬件,用户对于智能的要求是不一样的,心言的 AI 陪伴机器人要能够在复杂的、非结构化的环境当中去运行,是怎么去做算法设计的,以及模型部署会有哪些挑战?
颜鑫:家庭场景是一个非常复杂的开放式环境,里面的数据结构是非结构化的、多模态的,能否通过多模态模型的方式去获取到这些数据,从这些数据当中抽离出情感信息,这在算法中是有非常大的挑战。
得益于阿里云,有Qwen2.5-Omni这样的多模态模型,以及测测在过去十余年当中积累的丰富的多模态数据,我们在这个方向上做了很多的探索,这里面会要求模型的稳定量化。
机器人一定是要有一个实时的、稳定的、安全的运行,我们会把整个流程分层为三个部分:感知、规划和决策。决策和规划是由云端的模型来提供,要求云端的模型有非常强大的 Reasoning 的能力和 Agent 能力。那么在家庭陪伴的机器人当中,因为隐私、安全和实时性,就导致在做感知的时候,模型是需要放在端侧的。
36氪:希沃能否跟我们分享一个较为成功的云端协同的 AI 应用,给老师、给学生分别带来了哪些体验上的改变?
黄柏林:比较典型的就是关于如何评价一节课上得好和不好。因为教室是一个典型的人很固定、任务也很确定,但是发生什么极其复杂的场景。
对于大模型的挑战就在于如何响应这种情况。我们是两年前开始投入一个项目研发,先把任务切成了 8 个,然后分段上传到云端大模型,回来之后拼装成一份完整的报告。最后输出到老师和学生手里的时候还要时效性,我们做到的是 5 分钟就能拿到一节课的评价的报告。
这个背后的挑战一个就是评价本身要公允,会涉及到比较专业的教学评价方法,同时还要兼顾时效性,就涉及到把复杂任务前置,一边录制一边处理,下课 5 分钟就能生成,我们大概会把一个 7B 的模型放在本地,同时搭配通义千问进行意图识别,从而实现较好的效果。
36氪:为了应对不同行业特征下的非通用性需求,阿里云能够提供哪些标准化的工具或解决方案呢?
郑海超:首先通义作为阿里巴巴自研的开源基础大模型,率先实现 “全尺寸、全模态、多场景” 开源,包含文本、图像、视频、语音、编码等多种模态,在每一个模态又给大家提供了不同的规格的模型服务。其次,为了大家更好地做业务,我们提供了完整的训练环境,大模型服务平台百炼允许大家去利用各种各样的基础模型上传自己的数据,并且可以结合通义模型家族的数据来做混合的训练,再进行模型的部署和推理。最后,如果大家还有特定的需求,可能需要我们双方做更进一步的定制化,基于阿里云定制化的工具平台,帮助大家做一个独属于自己的定制化模型。
03. 全栈AI能力打造共赢生态
36氪:阿里云接下来会采取哪些措施来回应各个行业的需求,以及推动开源开放和行业共建?
郑海超:阿里云会在多个层次上来跟大家一起合作。
在基础设施层,阿里云部署遍布全球的基础设施,为模型训练及推理服务流程提供稳定且经济的算力基座;在数据与模型服务平台层,通过人工智能平台PAI围绕“数据-训练-推理-AI应用”的全生命周期,为客户提供高效、低成本的模型服务技术支撑;在模型层持续推进模型架构升级与模型能力进化,打造全尺寸、全模态的开源模型家族;在应用与解决方案层打造多模态交互的开发套件,以“多模态交互”与“智能助手”为核心组成,提供 60%–80% 的通用能力基座,支持终端厂商在差异化场景下快速完成二次开发与产品化。
值得一提的是,通义多模态交互开发套件已经在端侧场景广泛落地,为终端设备注入「听懂、看懂、会思考」的能力。其通过自然对话、多模态感知与实时交互,让万物成为用户的感知延伸与生活助手。该套件提供端侧SDK与算法增强,支持VAD、回声消除等本地处理,显著降低延迟与功耗,并具备广泛的硬件与系统兼容性(Android、iOS、Linux、RTOS)。通过可视化配置界面,开发者可无代码管理模型、提示词、知识库与Agent流程,快速部署测试。同时支持调用大模型服务平台百炼上的模型,并可自定义Agent、插件及第三方协议接入,构建灵活可扩展的多模态开发生态。
在服务千行百业的过程中,阿里云已经沉淀并开放服务头部客户过程中形成的行业 Know-How 与最佳实践,形成端云协同的可复制范式,加速 AI 能力在全行业的规模化落地。
更多精彩内容,可点击观看完整直播回放:
云栖来了 亮点预告
更多关于AI价值落地的探讨,会在2025云栖大会现场精彩呈现。敬请关注9月24日下午云栖大会【36氪先锋AI硬件分论坛】与【通义多模态交互技术分论坛】。
欢迎点击链接领取门票,直通云栖大会,现场见证智能硬件的“智变时刻”。