从"用数据"到"造数据":桥介数物正式启用“跨本体全身运动数据工厂”
近日,具身智能领域的头部运动控制研发商桥介数物(BridgeDP Robotics)宣布,其自建的"跨本体全身运动数据工厂"(下文简称"运动数据工厂")正式投入使用。该中心短期内将聚焦运动控制领域,以工业化、规模化的方式采集高质量的跨本体全身运动数据,并通过标准化数据管线与训练回流机制,构建"设计—采集—处理—训练—反馈"的数据闭环体系,为其自研的通用运动控制平台打造可持续演进的数据基础设施。
躬身入局,填补运动控制领域的数据真空
近年来,具身智能正经历从"算法驱动"向"数据驱动"的范式跃迁,行业对物理世界数据的需求快速增长。这一变化的背后,集中体现在以下三个层面:
首先,模型范式正在升级。早期机器人更多依赖"专家逻辑",需要工程师手动编写控制规则,并通过少量实验数据进行验证。随着行业转向更先进的大模型体系,机器人同样开始呈现出 Scaling Law(规模定律)的特征:模型参数规模越大,对动作数据的需求量也越大。要让机器人像 ChatGPT 理解文字一样理解物理世界,所需的是百万甚至千万小时级别的"环境—动作"配对数据,数据缺口由此被迅速放大。
其次,工作场景正在从结构化走向非结构化。早期机器人主要在工厂、实验室等结构化场景中运行,地面平整、节拍固定、扰动可控;而通用机器人需要走出实验室,进入家庭、户外、工地、商超等真实环境,面对几乎无穷无尽的长尾场景。以"行走"为例,看似单一的动作,落到瓷砖、地毯、湿滑路面、草地、楼梯、斜坡等不同地形上,所需的步态、重心调度与关节力矩完全不同;再叠加负重变化、被人推搡、踩空、绊倒等突发扰动,同时本体还需在极短时间内完成姿态恢复。面对这些复杂变量,传统实验室数据采集方式与模态难以满足需求。数据不再只是训练素材,而是决定机器人能否从实验室走向商业化应用的核心战略资源。
最后,高维物理交互数据正在成为关键门槛。传统工业机器人通常只需在固定坐标点之间重复执行动作,并不需要真正理解环境与自身,因此对高维数据的需求较低。而当通用机器人进入家庭、户外、工地等复杂环境后,关节力矩、足底压力、本体感知(IMU、姿态、动量)、地面摩擦与动力学响应都成为必须解决的问题。互联网上的海量视频虽然内容丰富,但本质上主要是"RGB×时间"的像素组合,更多提供的是视觉语义信息——它可以告诉机器人"前面是一段楼梯",却无法准确告诉机器人"上这级台阶需要多大的蹬伸力""踩到湿滑路面时该如何调整重心才能不摔倒"等关键物理信息。
近两年,头部具身智能本体厂商与上游企业已陆续把"数据"列入战略议程,只是这股趋势在不同方向上的落点并不均衡——运动控制相关的数据建设至今仍是一片明显的洼地,甚至可以说是"真空地带":行业内现有的运动控制数据普遍存在供应不足、质量参差不齐、构型与场景局限性大等问题,远远跟不上模型训练所需的规模。
造成这一局面的原因是多重的。一方面,运动控制领域技术门槛高、研发成本高、投入产出周期长,愿意长期深耕这一方向的企业本就凤毛麟角,能够持续为该领域生产高质量数据的服务商自然更为稀少;另一方面,传统的数据工厂更倾向于围绕"操作(Manipulation)"任务采集数据,原因也很现实——相比之下,这类数据在当下阶段的商业路径更为清晰。
面对这样的行业现状,桥介数物于半年前启动了自建运动数据工厂的规划工作。该决策既是桥介数物对行业数据荒的主动回应,也源于其自身业务发展的长期需求。具体而言,桥介数物将在短期内聚焦运动控制领域,通过工业化手段大规模采集高质量的跨本体全身运动数据 ,逐步解决通用跨本体运动控制平台训练中的数据瓶颈,为自研平台打造可靠的数据基础设施。这一举措不仅直面行业当下的数据困境,也标志着桥介数物正在从"依赖数据输血"走向"自主生产数据"的能力跃迁。
打造数据闭环,构建面向真实世界的能力演进体系
当以规模取胜的"暴力美学"技术路径逐渐成为具身智能行业的主流,"数据稀缺"正从资源问题演变为能力问题。企业能否持续获取、处理并回流真实物理交互数据,正在成为新的竞争分水岭。
与此同时,数据规模固然决定具身智能模型演进的覆盖广度,但数据质量(包括物理一致性、高保真度和可复用性)才是决定模型实机表现(In-field Performance)能否对齐训练预期的核心因素。单纯依赖数据规模扩张的方式正面临边际效益递减,行业竞争的重心正在转向高价值样本的工程化定义、标准化生产与精细化清洗。
在桥介数物看来,运动数据工厂不仅是数据获取端,更是数据闭环体系的起始节点。其核心逻辑,在于将数据置于"设计—采集—处理—训练—反馈"的闭环链路中,从而提升单条数据的有效利用率,让数据价值得到最大化释放。
首先是前置定义与标准化采集。在采集启动前,桥介数物会建立涵盖动作分类、质量权重、标签维度、环境参数、位姿信息及质检标准在内的准入体系,从物理层面确保原始数据的一致性与保真度。
其次是自动化数据管线处理。原始数据进入训练环节前,将通过自研管线完成跨本体的数据清洗、动作重定向(retargeting)、异常修复及检索调度,减少人工干预带来的不确定性,并提高数据产出效率。得益于动作重定向等核心环节,运动数据工厂的运动数据不再绑定特定的机器人构型,而是可以便捷迁移至不同目标本体。区别于业内常见的"一种本体对应一套数据"模式,这种机制让数据的可复用性与跨本体迁移效率都有显著提升。
最后是基于训练表现的逆向反馈。训练过程中的动作偏差、覆盖率、适配成功率等定量信号,将实时回传至采集中心;这些反馈会直接指导下一轮采集计划的参数设定与动作筛选,实现从算法表现到数据生产的闭环调优。
当前,行业正逐步从"模型驱动"走向"数据驱动"的新阶段。对桥介数物而言,这也意味着要从"打造能力"进一步走向"用数据持续放大能力"。过去几年,桥介数物已服务 30 余家具身智能企业,完成 50 余款不同型号机器人本体的训练与部署,并正在逐步将过往的项目经验沉淀为通用型平台能力。这一过程不仅需要大量数据,更需要数据在整个研发流程中形成闭环,使平台从依赖项目经验的离散优化,逐步转向由数据持续驱动的规模化迭代。由此,平台整体能力的演进也将变得更加稳定、可预测。
"数据不仅决定模型效果的上限和产品迭代速度,还会为公司的长期发展构筑壁垒。"桥介数物创始人尚阳星表示,"算法会被追赶,工具链会被模仿,但高质量、可持续、低成本、带反馈闭环的数据体系,很难被快速复制。"
随着通用运动控制平台能力不断提升,运动数据工厂持续产出的高物理保真动作数据,也将被验证为高质量、可复用的资产,有望沉淀出独立的产业价值。运动数据工厂的角色也将由此延展:从内部数据生产单元,逐步演进为面向行业的数据供给方与行业标准的共建者。
总体来看,运动数据工厂的投入使用,无论对现阶段还是未来的桥介数物而言,都具有深远意义。它不仅是桥介数物提升运动控制平台训练效率与泛化能力的重要支撑,也将成为其构建通用运动控制底座的关键数据基础设施。















