1毫秒级，最快的人体动作捕捉服，开源715万帧数据集

新智元·2026年03月31日 15:30

FlashCap实现1000Hz人体动捕，开源数据集与模型，推动体育、VR、机器人发展。

【导读】全球首个1毫秒级人体动作捕捉系统FlashCap，通过闪烁LED与事件相机结合，实现1000Hz超高帧率捕捉。无需昂贵设备或强光环境，低成本穿戴服即可精准捕捉极速动作。团队同步开源715万帧的FlashMotion数据集与多模态模型ResPose，显著提升运动分析精度，推动体育、VR与机器人领域迈向高动态智能新阶段。

在顶级体育赛事中，决定胜负的往往在毫秒之间。

然而，为了在短跑、攀岩、雪橇等极速运动中捕捉这些稍纵即逝的瞬间，业界目前的妥协方案，往往是动辄部署造价数十万、且对光照、带宽、存储要求极其苛刻的高速光学相机或是精度与稳定性要求极高、部署与维护成本同样不菲的专用计时设备。

那么，能否用一套低成本、且摆脱强环境光依赖的人体动作捕捉服，实现1000Hz的毫秒级人体动捕？

现有人体动作捕捉服达不到1000Hz毫秒级动捕，为了打破这个帧率天花板，厦门大学ASC实验室与上海科技大学另辟蹊径，联合提出了业界首个基于闪烁LED灯与事件相机的毫秒级动捕系统FlashCap。

目前，该工作已正式被计算机视觉顶会CVPR 2026接收。为推动该领域的持续突破，研究团队将全面开源核心成果：开放高达715万帧的高频动作捕捉数据集；动静结合的多模态超高时间分辨率动捕算法ResPose。

论文链接： https://arxiv.org/abs/2603.19770
论文主页： http://www.lidarhumanmotion.net/flashcap/

图1：FlashCap效果图

为什么动作捕捉需要迈入1000Hz 时代？

在竞速体育、高保真虚拟现实（VR）以及精密机器人遥操作等领域，人体的高速微动态（如急速挥手、瞬间发力或高频震颤）往往发生在几毫秒之间。

传统的120Hz动作捕捉系统在应对此类高速运动时，会产生严重的帧间信息丢失。现有方案通常依赖时域插值算法来重建缺失的运动轨迹，但这不可避免地会引入显著的插值误差，导致动作过度平滑或产生违背物理规律的畸变。

因此，想要真正实现毫秒级的高逼真人体动态还原，突破1000Hz的捕捉帧率是一个绕不开的核心门槛。

图2：插值结果与1000Hz GroundTruth对比图

为什么1000Hz的动作捕捉这么难？

现有的公开人体运动数据集，标注帧率最高只能勉强撑到120Hz。

对于高速动态运动，容易产生严重的插值误差

而如果直接使用传统的工业级高速相机（>1000Hz），则面临着让人头疼的「三高」问题：

极高的成本： 一台NAC级别的高速相机动辄超过4.5万美元，是事件相机的9倍之多。

极高的光照门槛： 必须在强光环境下才能保证画面不糊。

极高的硬件负担： 巨大的带宽和存储需求，让日常部署几乎成为不可能。

其他诸如惯性传感器（IMU）方案，虽然摆脱了光照限制，但存在不可避免的积分漂移误差，且频率也难以突破千赫兹大关。

FlashCap，给关节点打上摩斯密码

面对这个死胡同，研究团队另辟蹊径，提出了 FlashCap 方案。这套便携式设备的原理极其巧妙：

穿戴闪烁LED： 在人体的关键骨骼节点上佩戴微型 LED 发光模块。

频闪编码身份： 每个LED会以极高的频率（例如4000Hz）进行闪烁，并拥有独特的亮暗时间配比（On-time / Off-time），就好比给每个关节发了一套专属的摩斯密码。

事件相机精准捕获： 使用高时间分辨率、极低带宽的事件相机，异步捕获这些极速的明暗变化信号。

通过配套的自动化标注流水线（密度聚类、频率识别、噪声过滤），FlashCap能够直接从杂乱的事件流中精准解析出原生的1000Hz人体2D姿态标签。 无需十万美元的设备，无需强环境光照，更没有巨大的数据存储压力，高精度、低成本的1000Hz的真值数据就此制作完毕。

图3：FlashCap系统图

FlashMotion数据集

基于FlashCap系统，研究团队采集并开源了FlashMotion数据集。不仅多模态（囊括事件流、RGB、LiDAR点云和 IMU），更在数据维度上完成了真正的降维打击：

1000Hz标注帧率： 将公开姿态数据集的时间分辨率上限，一口气提升了将近一个数量级（从120Hz飙升至 1000Hz）。
715万标注帧： 包含240个动作序列，覆盖20名受试者的11大类快速动作（如极速踢腿、快速交叉双手、瞬间跳跃等）。

表1：FlashMotion数据集与现有数据集对比

ResPose，动静结合，巧妙搞定高速微动态

空有标杆级的高频数据，如果没有匹配的算法，依然是高射炮打蚊子。面对1000Hz的超高频数据流，传统基于慢速RGB帧逐帧计算的姿态估计模型，往往会面临算力与时延的双重崩塌。

为此，研究团队设计了一个极其优雅且高效的基础模型ResPose，核心算法哲学可以概括为八个字：RGB定大局，Event 抓微调：

RGB分支（全局锚点）： 利用低频的 RGB 图像提取出稳定的人体结构先验，确立低频但较为准确的静态锚点。
Event分支（残差）： 引入混合SNN-CNN编码器专门处理高频事件流。模型会在 RGB 锚点周围进行局部截取，精准捕捉微秒级的运动残差。
多模态Transformer融合： 将低频全局结构与高频局部残差送入Transformer进行时空特征对齐，并施加严格的运动学约束，输出平滑且精准的毫秒级高频姿态。

图3：ResPose网络图

实测效果如何？

在超高频姿态估计任务中，ResPose交出了一份极其亮眼的答卷：相较于传统先提RGB特征后强行插值的方案，它将平均关节位置误差（MPJPE）大幅砍掉了约40%！

输出的运动轨迹彻底告别了算法脑补带来的抖动与穿模，真正做到了如丝般顺滑且完美贴合真实物理动态。

而在更硬核的精准动作计时（PMT）任务中（例如要求精准定格拳击手挥拳击中目标的那一毫秒）：

传统的 RGB 方法（如 ViTPose）面对高速动态直接捕捉缺失，时间误差高达 50 毫秒以上。
常规多模态方案：同样难以招架 1000Hz 的高频特征对齐，纷纷败下阵来。
ResPose凭借优雅的动静融合架构一骑绝尘，直接将时间误差硬生生压缩到了个位数毫秒级别（例如拳击动作仅 4.8 毫秒误差）！

表2：超高频姿态估计任务。

表3：精准动作计时任务估计时间的平均误差（单位：毫秒）。

探寻人类高速动作的极限

长久以来，人体姿态估计（HPE）社区一直被低频数据集所束缚，忽视了真正决定运动胜负和动作自然度的高速微动态。

FlashCap以一种极具极客精神和实用主义的方式，推开了通往超高时间分辨率运动理解的大门。这不仅对于体育赛事的极致分析具有颠覆性意义，也将为下一代具身智能（如高动态机器狗、人形机器人的精细控制）提供极其宝贵的数据基石。

作者介绍

论文第一作者来自厦门大学空间感知与计算实验室（ASC Lab）2024级硕士生吴泽凯、2023级硕士生范书琪，通讯作者为厦门大学沈思淇副教授，并由刘梦茵、罗裕华、林心成、颜明、吴俊豪、林修弘、马月昕研究员（上海科技大学）、温程璐教授、许岚研究员（上海科技大学）、王程教授共同合作完成。研究团队长期聚焦于3D人体姿态估计、快速人体运动捕捉及相关多模态数据集构建。

参考资料：https://asc.xmu.edu.cn/

本文来自微信公众号“新智元”，编辑：LRST ，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。