当Github7万星标遇上产业老兵

36氪品牌·2026年05月07日 13:33
在仿真数据与真机遥操之外,一条被低估的数据路径正在浮出水面

2025年,人形机器人站上"量产元年"的门槛。资本市场的热情、科技媒体的聚光灯、Demo视频的病毒式传播——水面之上,一切看起来都很美。 

但水面之下,一个冰冷的现实正在威胁整个产业的根基:数据缺口。当前具身智能领域的高质量真实数据规模仅在约50万小时左右。而一个技能点要达到交付级,模型需要2000-5000小时甚至过万训练数据。这意味着,行业数据存量几乎只够支撑几十个技能点——距离大规模商用所需的数万技能点,差距悬殊。 

两条路已证伪,第三条路正在浮现 

具身智能行业目前有三条数据获取路径。前两条已经被不同程度地证伪,第三条正在被一支新团队验证。 

路径一:互联网视频/合成/仿真数据

数量庞大(数亿至数百亿小时),但缺乏真实物理交互,无法解决技能操作泛化问题。就像让一个人通过看电影学做饭——他知道步骤,但手上没感觉。 

路径二:真机遥操/动捕数据

现状仅数万小时。与硬件高度耦合,扩展成本高(约180美元/小时),且缺乏真实场景多样性。就像为每一款新手机单独训练一个操作员——不可规模化。 

路径三:无本体真人数据 —— 第三条道路

直接采集真实场景中人类操作者的动作、视觉、力控数据,不依赖特定机器人本体。理论上能解决技能泛化,且与硬件解耦——一个数据集可以适配多种机器人。 第三条道路的核心优势在于"解耦"——数据与机器人本体解耦,一次采集,多次复用。但它面临的挑战也最大:如何从真实场景中获取数亿小时规模的数据?如何保证标注质量?如何控制成本? 

这正是基元智航试图回答的问题。 

三条数据路径对比:无本体真人数据成为最具规模化潜力的方向 

第三条道路的核心优势在于"解耦"——数据与机器人本体解耦,一次采集,多次复用。但它面临的挑战也最大:如何从真实场景中获取数亿小时规模的数据?如何保证标注质量?如何控制成本? 

这正是基元智航试图回答的问题。 

团队的稀缺性:产业嗅觉 + 顶级AI工程 

基元智航的核心团队配置,在具身智能创业圈极为罕见——不是一群学术派的"技术理想主义者",也不是一群只做集成的"产业机会主义者",而是真正横跨AI顶尖研发与产业规模化落地的复合体。 

高少龙 — CEO · 博士 · 北航本硕博 · SRT软体机器人前CEO

国内首家实现软体机器人商用化的创业者,入选工信部专精特新"小巨人"。中国电子学会机器人分会委员,省部级人才。十年产业化经验,拥有成熟的商务渠道和强产业落地能力。

邰振赢 — CTO · 副研究员 · AAAI Best Paper · LlamaFactory主创

大数据科学家,全球第一大模型微调工具LLaMA Factory主创,GitHub星标数突破7万+。中国电子学会科技进步一等奖(多模态模型方向)。 

罗红宇 — VP · 博士 · 华航唯实前CEO · 中国科协青年百人

华航唯实前CEO,中国科协青年百人。国防科技进步一等奖获得者。拥有丰富的产业管理经验与战略视野。 

周号益 — CS · 教授 · 北航 · 25篇顶刊顶会 · 世界人工智能大会云帆奖

VLA大模型科学家,在人工智能、机器学习顶刊顶会累计发表25篇论文。主持国家自然科学青年基金、科技部重点研发课题、航天五院等项目,获国家电网大数据中心科技进步一等奖、工信部工业互联网创新成果转化一等奖。入选中国科协青托、CAAI学会优博、CCF青年发展计划、世界人工智能大会云帆奖等。

为什么这个组合罕见? 高少龙懂产业缺什么——他在SRT的十年告诉他,机器人落地最大的瓶颈不是硬件,而是"教机器人做事"的数据成本。邰振赢懂AI能做什么——LLaMA Factory证明了他在"让复杂训练变得简单"这件事上的世界级能力。周号益懂工程怎么落地——从航天五院到国家电网,他的项目履历意味着"国家级严苛标准下的交付能力"。罗红宇有十亿级机器人公司运营经验。四人叠加,形成了"需求洞察 → 技术突破 → 工程落地 → 全球扩张"的完整闭环。 

从LLaMA Factory到具身数据平台:技术基因的延续 

如果说LLaMA Factory解决的是"如何让普通人也能微调大语言模型",基元智航想解决的就是"如何让产业场景也能高效生产具身训练数据"。两者共享同一套产品哲学:把专家级能力,封装成傻瓜式工具

从LLaMA Factory到具身数据平台——同一条技术基因的延伸

基元智航的技术架构,覆盖了具身数据从采集到应用的全生命周期: 

采集层:多源异构硬件接入,亚毫米级位姿识别 

存储层:2000PB+超大规模存储,检索响应<200ms,支持亿级数据秒查 

清洗层:AI自动评分,时间维度积累,典型失败负样本沉淀 

标注层:自动切分原子动作,标注成本降至1‰ 

算力层:全国产芯片兼容(昇腾/鲲鹏/海光),零代码微调 

应用层:数据API/SDK,模型诊断推荐,一键训推 

基元智航将其核心竞争力概括为"4大别人抄不走的硬实力": 

1. 多模态大数据处理管线
十年迭代,经国家级重点项目严苛验证,已建成行业领先的成熟RING数据处理平台。 

2. 云边大小模型协同
行业唯一实现工程化落地的方案,已在国家电网13个省份及巴西电网实现大规模商用部署。 

3. 零代码大模型微调
基于全球顶流开源项目LLaMA-Factory打造,GitHub星标数突破7万+,生态极其活跃。 

4. 具身全栈智算体系
 全自研核心架构,全国产软硬件兼容适配,构建并沉淀1500+个高价值行业垂类基模。 

远期目标(基于BP披露): 构建近1500个垂类专业数据集,约20万技能点,覆盖工业生产、家庭生活、商业服务、医疗健康、城市公共、数字文创六大领域。形成1500个垂类模型,打造具身智能时代的数据基础设施底座。 

 * 以上内容为公司公开披露的规划方向,具体进展以官方发布为准 

结语:数据熔炉,智能涌现 

具身智能的竞赛,表面上是机器人的竞赛,本质上是数据的竞赛。当所有人都在关注"谁做出了更灵巧的手"时,数据基础设施这个"底座工程"却少有人愿意沉下心来做。 

基元智航选择了一个"难而正确"的方向:不追最炫的Demo,而是解决最底层的瓶颈。从LLaMA Factory的工程基因出发,叠加十年产业落地的渠道优势,试图为具身智能产业搭建一个"数据熔炉"。 

如果说Scale.ai为大语言模型时代提供了数据标注的基础设施,那么具身智能时代,或许同样需要一位"数据底座"的搭建者。基元智航的目标,正是这个位置。 

当真实产业场景被转化为机器可学习的技能数据,一个前所未有的"人类技能蒸馏"网络或许正在悄然成型。而这家成立不到一年的公司,正站在这条路的起点。 

+1
10

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

拥抱变化、重构能力体系。

3小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业