普渡发布通用具身智能体PuduAgent,终结“反复造轮子”时代

时氪分享·2026年05月13日 17:48
PuduAgent为物理世界而生,为具身智能而立

来源|普渡机器人

引言 从单点技术到规模化落地的跨越

近年来,机器人在端到端导航、具身操作、人机交互等单点能力上取得了显著进步。然而这些能力的突破并未自动转化为大规模商业化落地。原因在于,行业长期缺少一个关键的底层基础设施:一套物理多模态大模型驱动的机器人Agent系统。回顾移动互联网的爆发,关键拐点并非硬件性能的提升,而是 iOS 和 Android 的出现。它们将复杂的硬件能力抽象为标准化的 API,使开发者得以专注于应用层创新,无需重复实现底层通信、调度与资源管理。正因如此,千万级应用生态才得以生长。PuduAgent将会成为机器人界的ios和andorid, 极大助力机器人应用开发。

全文导览目录

1. 机器人大规模落地的三大真实困局

2. PuduAgent:下一代通用物理智能体平台

3. 具身智能体:从单机智能到群体智能

4. PuduAgent具身基础设施

普渡机器人认为,机器人要实现真正的规模化落地,必须提供一个统一的物理智能体体系,让开发者可以像组合标准模块一样灵活搭建已有能力,快速构建应用,而非每次重新造轮子。为此,我们构建了PuduAgent,一个面向物理世界的通用具身智能体平台。

1. 机器人大规模落地的三大真实困局

1.1 记忆崩塌:超长程任务中的目标漂移

现实场景中的任务并非孤立的“分钟级”动作,而是由多阶段决策、动态环境变化及人机交互构成的“小时级”超长程任务。然而,当前主流机器人系统的决策窗口普遍被限制在分钟级,难以在长时间尺度下维持稳定的目标表征。在30分钟以上的连续任务中,传统系统的任务失败率高达40%,且随着时间延长呈指数级上升。根本原因在于,系统缺乏长期记忆与目标纠偏能力,每一步的微小偏差不断累积,最终导致任务彻底偏离初始目标。

1.2 集成之难:周而复始的“重造轮子”

导航、操作、交互等核心能力虽然已经形成一定模块,但缺乏统一的抽象定义与调度接口。这些能力无法被快速组合和复用,每个新项目都需要大量定制开发进行串联与适配。一个看似简单的场景变更,仍需要深入底层算法进行调整,不同项目之间积累的Skill难以迁移,每个项目都在“重新造轮子”,开发门槛居高不下。

1.3 执行缺失:AI Agent难以进入物理世界

AI Agent在数字世界中表现卓越,但进入物理世界时面临“能力类型不匹配”的根本性障碍。现有Agent主要基于语言与符号系统,擅长任务理解与信息处理,但缺乏对物理过程的建模能力。以“拿起杯子”为例:语言模型可以生成任务序列,但实际执行涉及抓取位置、力度控制、姿态调整、接触稳定性等多重物理约束。如果没有对动作可行性的预判能力,往往只能依赖试错。然而,在真实世界中,每一次试错都可能造成设备损坏或安全隐患。AI Agent要真正进入机器人领域,必须补齐物理建模能力与可行性预判机制。

2. PuduAgent:下一代通用物理智能体平台

单点算法优化或简单引入AI Agent系统,无法从根本上解决上述三大困局。我们需要从系统层面,包含大模型层面,重构机器人能力体系。

为此,普渡机器人推出了PuduAgent,一个面向物理世界的通用具身智能体平台。它包含三大核心能力:

· 系统层(PuduAgent OS):运行环境与认知基座

· 能力层(PuduAgent Skills):标准化的原子能力库

· 安全层(PuduAgent Safety):执行约束与风险控制

三者共同构成一个可扩展、可复用、可泛化的机器人能力框架。

2.1 PuduAgent OS:物理世界的认知基座

2.1.1 Agent Core:物理世界的智能核心

和传统 AI Agent 主要依赖通用 LLM 或 VLM 作为决策核心不同,PuduAgent 面对真实物理世界的复杂性,必须以机器人原生大模型Agent Core作为核心大脑进行重新构建。

物理世界对齐

现有大模型的核心能力来源于互联网数据,擅长数字世界的问题分析,但难以理解真实机器人所处的物理环境。真实场景中,传感器安装方式、观测分布、行业知识等与数字世界存在显著差异。

为解决这一问题,普渡机器人基于自身在多种机器人形态与广泛业务场景中的数据积累,采集并标注了大规模物理世界数据集,从一开始就围绕3D感知与物理交互过程,构建融合多模态感知与环境反馈的统一模型体系,使模型不仅“能理解文字”,更“能理解物理状态”。这种从“语言智能”到“具身智能”的范式转变,使得Agent Core能够更准确地理解环境,为任务规划与技能调用提供更可靠的认知基座。

超长程任务处理

基于在超大型复杂场景落地中积累的深厚实践经验,普渡机器人不再满足于狭窄、固定空间内的碎片化作业。通过引入创新的多尺度任务规划算法与动态调节反馈闭环,Agent Core 使机器人能够在万平级复杂商业空间(如高端酒店大堂、大型工业仓储)中,完成跨楼层、多区域的超长程任务规划。在确保人机自然交互的同时,实现了对非结构化语义的深度理解与精准指令拆解,为复杂任务的稳定执行奠定了逻辑基石。

传统基于思维链(Chain-of-Thought, CoT)的视觉语言任务分解,虽在静态问答中表现直观,但在真实物理世界中却暴露出结构性脆弱:面对环环相扣的复杂依赖关系,它往往顾此失彼;面对长达数十分钟的超长程任务,微小偏差会像滚雪球般累积,最终导致全局失败。

为此,Agent Core构建了多尺度任务规划框架,模仿人类管理者的决策逻辑。先进行宏观战略拆解(“从A区到B区”),再逐步细化为微观战术执行(“绕过障碍物,抓取目标物”)。这种“从粗到细”的分层规划,有效解耦了复杂任务间的耦合依赖,让超长程任务的每一步都建立在稳固的前置条件之上。

更关键的是,Agent Core突破了传统“一次性规划、机械执行”的静态模式局限。它构建了动态调节闭环:通过引入任务执行过程反馈,无论是任务进度偏差,还是执行结果的物理状态变化,规划模块能自适应地调整策略。当发现预期路径被堵,或物体状态与预期不符时,Agent Core并非僵化推进,而是即时重构后续步骤,确保在动态变化的真实环境中始终“行得通”。为了训练Agent Core具备这种能力,我们构建了虚拟的动态任务仿真器,其核心由一个视频生成模型和一个回报模型构成。Agent Core分解的sub-task会通过视频生成模型输出执行的动作视频,回报模型会基于动作视频给出任务反馈。基于这个虚拟的交互闭环不断地优化Agent Core任务规划的能力。

2.1.2 Agent Memory:长程任务的“不遗忘”机制

在PuduAgent 中,Agent Memory 不再只是“存文本”或“做检索增强生成(RAG)”,而是直接决定机器人能否完成“小时级任务”的核心基础设施。与传统 AI Agent Memory 主要处理语义信息不同,Agent Memory 本质上是一个跨时间、跨模态、跨物理状态的统一经验系统,需要同时承载“发生了什么”、“环境变成了什么样”、“我做过哪些动作以及结果如何”。

为此,Agent Memory引入了工作记忆、情景记忆、和记忆压缩与抽象的系统:

· 工作记忆:类似机器人的“短期注意力”,实时维护当前执行上下文;

· 情景记忆:类似“经验档案库”,存储过往成功路径与失败教训。

· 记忆压缩与抽象:一个将“连续数据转化为离散结构 ”的系统。

该系统不只是为了提供上下文,而是作为连接感知,决策与执行的中枢,使机器人在漫长任务链条中始终保持“目标清醒”,避免重复犯错或偏离初衷。

2.1.3 Agent Runner:毫秒级执行底座

Agent Runner负责对高层指令进行实时解析与硬件映射,提供高度并发的任务流管理与资源分配机制,确保感知、规划、控制在毫秒级延迟内完成闭环。

2.2 PuduAgent Skills:标准化的原子能力库

PuduAgent Skills将复杂的机器人行为抽象为标准化的原子技能,通过统一接口定义,开发者可以像搭积木一样组合不同能力。

关键特性:

· 动态加载:技能可按需加载,无需重启系统;

· 跨形态适配:同一技能可快速适配不同机器人形态;

·模型无关:无论是传统的感知规划算法还是前沿 VLA(Vision-Language-Action)、WM(World Model)模型,均作为技能被统一调度。

PuduAgent 会根据任务与场景选择最合适的技能:对于确定性环境中的重复任务,调用稳定、高效的传统技能;对于复杂多变的操作任务,则调用具备泛化能力的基础模型。

2.3 PuduAgent Safety:物理世界的安全护栏

在真实环境中,机器人执行动作必须满足安全性要求。PuduAgent Safety 在系统层面对行为进行约束:

· 可行性判断:在执行前评估动作是否满足物理约束;

· 风险预判:识别潜在碰撞、过载、不稳定等风险;

· 异常干预:在检测到异常时主动调整或中止任务。

这一机制有效降低了试错成本,使机器人在复杂环境中具备更高的可用性与安全性。

3. 具身智能体:从单机智能到群体智能

3.1 一脑多形:跨形态复用

在具身智能迈向规模化落地的过程中,“一脑多形”是关键能力,即在统一认知系统之上,支持不同形态机器人在多场景中的复用与扩展。

PuduAgent 通过构建统一的 Agent OS 架构,将感知、记忆、规划与执行解耦,并在PuduAgent Skill实现标准化抽象,使“能力”从具体硬件形态中独立出来。无论是配送机器人、清洁机器人、工业机器人,还是人形或四足形态,均可共享同一套 Agent Core 与Agent Memory,并通过参数化 Skill 与设备适配层完成快速迁移。这种从“绑定形态”到“能力解耦”的转变,是基于统一大脑持续演进的通用智能体,从而真正实现跨形态、跨场景的规模化复制与能力复用。

3.2 群体协同:异构机器统一调度

在真实商业环境中,机器人不是单机运行的孤立设备,而是需要各种类型的机器构建一整套解决方案。PuduAgent同样可基于PuduAgent OS调度机制,将不同形态、不同能力边界的机器人抽象为标准化的“可调度资源”,通过任务与多机器人协同框架进行统一编排。系统能够根据任务类型、环境状态与设备实时能力,动态完成任务拆解、分配与重调度,引导不同类型机器人形成协同作业闭环。同时,通过共享 Memory,不同机器人之间可以对环境状态与任务进度达成一致认知,避免信息割裂与重复执行。这种从“单机优化”走向“群体智能调度”的能力,使 PuduAgent 能够在复杂场景中实现更高效率、更强鲁棒性的多机协同运行。

4. PuduAgent具身基础设施

PuduAgent 不单是提升部署效率的加速器,也不仅仅是普渡机器人私有化的技术底座,它更是一个面向全球开发者的开放平台:

· 完善的SDK:标准化的技能开发与调用接口;

· 仿真环境:支持在数字世界中快速验证与迭代;

· SkillHub:开发者可贡献并商业化自己的技能模块。

我们的目标是降低具身智能应用的开发门槛,让更多开发者专注于行业逻辑,而非底层机器人技术,构建了一个可扩展的具身智能基础设施:

· 技术可复制性:原子技能一旦开发,可在不同场景、不同机器人形态间复用。这种架构使得普渡机器人的能力积累具有“复利效应”——每解决一个新问题,都在强化整个平台。

· 场景扩展空间:当前聚焦于商用服务与工业场景,但PuduAgent的架构天然适配家庭服务、特种作业、医疗辅助等更多领域。技能库的持续丰富将驱动平台向千亿级市场延伸。

· 数据飞轮效应:随着部署规模扩大,平台积累的真实物理世界交互数据将反哺Agent Core等核心模型,形成持续的技术领先优势。

· 生态壁垒:开放平台与开发者生态一旦形成规模,将构建起“技能越多→场景覆盖越广→开发者越多”的正向循环,形成难以复制的竞争护城河。

PuduAgent为物理世界而生,为具身智能而立。成为物理世界中的通用智能底座,不只是一个平台,更是一种范式:让能力从硬件形态中解耦,让智能从单机节点走向群体协同,让具身智能在真实世界中更快地实现大规模落地。

关于普渡机器人

深圳市普渡科技股份有限公司,简称“普渡机器人(Pudu Robotics)”,是全球商用服务机器人领导者,致力于打造全球性的智能机器人基础设施,让机器人服务100亿人。基于“具身导航、具身操作、具身交互”三大具身智能技术栈,普渡实现“一脑多形”技术架构,并率先在行业内完成专用、类人形和人形机器人全形态布局。普渡机器人已构建配送、清洁、工业和通用具身智能四条产品线,产品广泛应用于零售、酒店、工业、仓储物流、餐饮、物业地产保洁、医疗、娱乐体育、教育、公共交通与服务等多个行业,业务遍及全球80多个国家,截至2025年底累计出货量超12万台

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

房间里的大象,从未离开,也不被谈论。——水哥

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业