1毫秒级,最快的人体动作捕捉服,开源715万帧数据集
【导读】全球首个1毫秒级人体动作捕捉系统FlashCap,通过闪烁LED与事件相机结合,实现1000Hz超高帧率捕捉。无需昂贵设备或强光环境,低成本穿戴服即可精准捕捉极速动作。团队同步开源715万帧的FlashMotion数据集与多模态模型ResPose,显著提升运动分析精度,推动体育、VR与机器人领域迈向高动态智能新阶段。
在顶级体育赛事中,决定胜负的往往在毫秒之间。
然而,为了在短跑、攀岩、雪橇等极速运动中捕捉这些稍纵即逝的瞬间,业界目前的妥协方案,往往是动辄部署造价数十万、且对光照、带宽、存储要求极其苛刻的高速光学相机或是精度与稳定性要求极高、部署与维护成本同样不菲的专用计时设备。
那么,能否用一套低成本、且摆脱强环境光依赖的人体动作捕捉服,实现1000Hz的毫秒级人体动捕?
现有人体动作捕捉服达不到1000Hz毫秒级动捕,为了打破这个帧率天花板,厦门大学ASC实验室与上海科技大学另辟蹊径,联合提出了业界首个基于闪烁LED灯与事件相机的毫秒级动捕系统FlashCap。
目前,该工作已正式被计算机视觉顶会CVPR 2026接收。为推动该领域的持续突破,研究团队将全面开源核心成果:开放高达715万帧的高频动作捕捉数据集;动静结合的多模态超高时间分辨率动捕算法ResPose。
- 论文链接: https://arxiv.org/abs/2603.19770
- 论文主页: http://www.lidarhumanmotion.net/flashcap/
图1:FlashCap效果图
为什么动作捕捉需要迈入1000Hz 时代?
在竞速体育、高保真虚拟现实(VR)以及精密机器人遥操作等领域,人体的高速微动态(如急速挥手、瞬间发力或高频震颤)往往发生在几毫秒之间。
传统的120Hz动作捕捉系统在应对此类高速运动时,会产生严重的帧间信息丢失。现有方案通常依赖时域插值算法来重建缺失的运动轨迹,但这不可避免地会引入显著的插值误差,导致动作过度平滑或产生违背物理规律的畸变。
因此,想要真正实现毫秒级的高逼真人体动态还原,突破1000Hz的捕捉帧率是一个绕不开的核心门槛。
图2:插值结果与1000Hz GroundTruth对比图
为什么1000Hz的动作捕捉这么难?
现有的公开人体运动数据集,标注帧率最高只能勉强撑到120Hz。
对于高速动态运动,容易产生严重的插值误差
而如果直接使用传统的工业级高速相机(>1000Hz),则面临着让人头疼的「三高」问题:
极高的成本: 一台NAC级别的高速相机动辄超过4.5万美元,是事件相机的9倍之多 。
极高的光照门槛: 必须在强光环境下才能保证画面不糊。
极高的硬件负担: 巨大的带宽和存储需求,让日常部署几乎成为不可能。
其他诸如惯性传感器(IMU)方案,虽然摆脱了光照限制,但存在不可避免的积分漂移误差,且频率也难以突破千赫兹大关。
FlashCap,给关节点打上摩斯密码
面对这个死胡同,研究团队另辟蹊径,提出了 FlashCap 方案。这套便携式设备的原理极其巧妙:
穿戴闪烁LED: 在人体的关键骨骼节点上佩戴微型 LED 发光模块 。
频闪编码身份: 每个LED会以极高的频率(例如4000Hz)进行闪烁,并拥有独特的亮暗时间配比(On-time / Off-time),就好比给每个关节发了一套专属的摩斯密码。
事件相机精准捕获: 使用高时间分辨率、极低带宽的事件相机,异步捕获这些极速的明暗变化信号。
通过配套的自动化标注流水线(密度聚类、频率识别、噪声过滤),FlashCap能够直接从杂乱的事件流中精准解析出原生的1000Hz人体2D姿态标签 。 无需十万美元的设备,无需强环境光照,更没有巨大的数据存储压力,高精度、低成本的1000Hz的真值数据就此制作完毕。
图3:FlashCap系统图
FlashMotion数据集
基于FlashCap系统,研究团队采集并开源了FlashMotion数据集。不仅多模态(囊括事件流、RGB、LiDAR点云和 IMU),更在数据维度上完成了真正的降维打击:
- 1000Hz标注帧率: 将公开姿态数据集的时间分辨率上限,一口气提升了将近一个数量级(从120Hz飙升至 1000Hz)。
- 715万标注帧: 包含240个动作序列,覆盖20名受试者的11大类快速动作(如极速踢腿、快速交叉双手、瞬间跳跃等)。
表1:FlashMotion数据集与现有数据集对比
ResPose,动静结合,巧妙搞定高速微动态
空有标杆级的高频数据,如果没有匹配的算法,依然是高射炮打蚊子。面对1000Hz的超高频数据流,传统基于慢速RGB帧逐帧计算的姿态估计模型,往往会面临算力与时延的双重崩塌。
为此,研究团队设计了一个极其优雅且高效的基础模型ResPose,核心算法哲学可以概括为八个字:RGB定大局,Event 抓微调:
- RGB分支(全局锚点): 利用低频的 RGB 图像提取出稳定的人体结构先验,确立低频但较为准确的静态锚点。
- Event分支(残差): 引入混合SNN-CNN编码器专门处理高频事件流。模型会在 RGB 锚点周围进行局部截取,精准捕捉微秒级的运动残差。
- 多模态Transformer融合: 将低频全局结构与高频局部残差送入Transformer进行时空特征对齐,并施加严格的运动学约束,输出平滑且精准的毫秒级高频姿态。
图3:ResPose网络图
实测效果如何?
在超高频姿态估计任务中,ResPose交出了一份极其亮眼的答卷:相较于传统先提RGB特征后强行插值的方案,它将平均关节位置误差(MPJPE)大幅砍掉了约40%!
输出的运动轨迹彻底告别了算法脑补带来的抖动与穿模,真正做到了如丝般顺滑且完美贴合真实物理动态。
而在更硬核的精准动作计时(PMT)任务中(例如要求精准定格拳击手挥拳击中目标的那一毫秒):
- 传统的 RGB 方法(如 ViTPose) 面对高速动态直接捕捉缺失,时间误差高达 50 毫秒以上 。
- 常规多模态方案: 同样难以招架 1000Hz 的高频特征对齐,纷纷败下阵来。
- ResPose凭借优雅的动静融合架构一骑绝尘,直接将时间误差硬生生压缩到了个位数毫秒级别(例如拳击动作仅 4.8 毫秒误差)!
表2:超高频姿态估计任务。
表3:精准动作计时任务估计时间的平均误差(单位:毫秒)。
探寻人类高速动作的极限
长久以来,人体姿态估计(HPE)社区一直被低频数据集所束缚,忽视了真正决定运动胜负和动作自然度的高速微动态 。
FlashCap以一种极具极客精神和实用主义的方式,推开了通往超高时间分辨率运动理解的大门。这不仅对于体育赛事的极致分析具有颠覆性意义,也将为下一代具身智能(如高动态机器狗、人形机器人的精细控制)提供极其宝贵的数据基石。
作者介绍
论文第一作者来自厦门大学空间感知与计算实验室(ASC Lab)2024级硕士生吴泽凯、2023级硕士生范书琪,通讯作者为厦门大学沈思淇副教授,并由刘梦茵、罗裕华、林心成、颜明、吴俊豪、林修弘、马月昕研究员(上海科技大学)、温程璐教授、许岚研究员(上海科技大学)、王程教授共同合作完成。研究团队长期聚焦于3D人体姿态估计、快速人体运动捕捉及相关多模态数据集构建。
参考资料:https://asc.xmu.edu.cn/
本文来自微信公众号“新智元”,编辑:LRST ,36氪经授权发布。















