眸深智能发布全新个人类思维方式的三维世界模型HL3DWM 让机器人真正看懂真实世界
想象一下,当你走进一个陌生的房间,会如何寻找遥控器呢?
作为人类的我们会凭借生活经验,迅速回忆“遥控器通常在电视旁边或沙发上”,随后走向那个区域,环顾四周,忽略水杯、纸巾盒等进入视线的其他无关物品,最终锁定目标。
在纷繁的3D世界中,这种“精准定位、按需检索”的人类本能,正是具身智能迈向通用化的过程中迫切需要的核心能力。
全球全新人类思维方式的三维世界模型HL3DWM
近日,眸深智能联合复旦大学以及上海创智学院的研究团队,基于人类行为的范式,创新性提出了全新的类人范式3D世界模型(HL3DWM)。团队立足人类理解3D世界的天然逻辑,开辟了更贴合真实世界认知的3D场景理解新路径,推动具身智能技术从前沿研究走向规模化产业应用。
HL3DWM就像一个有“空间记忆”的智能助手,其核心原理是模仿人类理解3D世界的方式——先找相关区域,再整合周边信息,最后完成任务。通过团队自研的“物体感知图像检索”模块和“环境感知信息聚合”模块,结合3D点云提供的全局空间关系和图像的精细细节,让大语言模型给出准确答案或任务方案,顺利完成复杂任务。
现有研究痛点:3D大语言模型难以兼顾全局与细节
近年来,多模态大语言模型(MLLMs)在2D图像领域大放异彩,研究者们自然希望将这种能力迁移到3D真实世界中,赋予机器人等具身智能体理解物理空间的能力。如何进一步提升模型的3D空间理解能力,已成为当前研究重点。
然而,当前主流3D多模态大语言模型在面对复杂3D任务时,往往面临两难境地:一方面,点云虽能提供准确的3D坐标,但直接从点云中提取特征容易丢失图像细节信息,部分物体也难以通过点云进行表征,例如小巧的物体在点云中无法清晰识别;另一方面,将2D图像特征映射至3D空间后,模型可能难以对3D空间信息进行充分建模,尤其是全局空间关系,例如对于两张没有重叠区域的图像,大语言模型难以充分理解其空间位置关系。
HL3DWM的破局之道:模仿人类理解3D世界的方式,融合多模态核心信息
人类在3D世界中完成任务时,能轻松整合全局信息与相关的细节信息。以“烹饪”为例,人类会先基于任务和记忆前往厨房,再观察周边环境,整合厨房内厨具与食材的信息,最终确定烹饪的菜品与方式。该过程可总结为三个步骤:首先,理解任务并检索对应位置,接收指令后,人类可以提取任务相关信息,再结合记忆来定位任务相关区域以收集更多信息;其次,信息聚合,检索到目标位置后,整合物体及周边环境的任务相关信息;最后,执行任务,利用收集到的信息完成任务。
值得关注的是,HL3DWM(Human-Like 3D World Model)采用了一套模仿人类认知习惯和理解世界的架构,整体框架可见下方图2。
步骤一:先“划重点”,提取信息、精准定位——OIR模块
人类接到指令后,第一反应是提取关键词并回忆位置。HL3DWM同样如此。
例如,当接收到问题“扶手椅是什么颜色”时,人类会先捕捉关键词“扶手椅”,从模糊的记忆中回忆其位置,再观察该区域以获取更多信息,进一步确认扶手椅的颜色。
为实现任务理解与目标区域检索,研究提出物体感知图像检索(OIR)模块,模拟人类的这种行为特征。该模块先从指令中提取关键词或位置信息,再检索包含任务相关区域细节的对应图像。具体而言,通过CLIP等视觉基础模型或相机参数,根据提取的信息定位到目标区域。
步骤二:再“环视四周”,高效整合周边环境信息——EIA模块
光看目标还不够,掌握环境要素也很重要。当接收到诸如“搭建一个音乐驿站”的任务时,人类会先观察空间环境,找到搭建音乐驿站所需的物品,再利用这些物品完成搭建。尤其是当指令对于各物体间的相对位置有明确要求时,周边环境信息更是成为了不可或缺的部分。
从人类“环视四周”和“过滤无用信息”的行为特征中汲取灵感,研究进一步引入环境感知信息聚合(EIA)模块,用于收集周边环境信息,以获取更多任务相关内容。具体而言,该模块由信息获取与信息聚合两个部分构成,分别旨在获取周边区域信息,以及对获取的信息进行过滤与融合。最终,将收集到的信息与指令输入大语言模型,得到方案解答。实验结果表明,该方法能有效利用点云和任务相关图像的信息,在3D视觉问答和3D密集描述等多项任务中实现性能提升。
实验实证:多项3D任务领跑,性能超越多个同期主流模型
团队依托ScanNet、ScanQA等权威数据集开展大量实验,采用BLEU、ROUGE-L、METEOR、CIDEr四项指标对模型性能进行评估,结果证实HL3DWM的硬核实力:在3D密集描述、3D视觉问答、3D场景描述等多项核心3D视觉-语言任务中取得优异表现,性能优于LL3DA、Grounded 3D-LLM等同期顶尖3D大语言模型,可实现5-20%能力提升。搭配更强性能的大语言模型时,整体效果还可进一步提升,充分验证了方案的有效性与适配性。
为更直观地展示模型的工作流,本文对HL3DWM进行了工作流可视化(如图3所示),模型可提取任务相关关键词,并检索任务相关图像。当接收到问题“窗下的小柜子上放了什么”时,HL3DWM首先提取“窗户”等任务相关关键词,再从记忆中检索对应图像;随后,通过信息获取过程得到以检索图像为中心的周边图像,再通过信息聚合过程得到任务相关token;最终,大语言模型结合点云的全局信息和图像的精细信息,给出准确的答案“窗下的小柜子上放了书”。
图4展示了HL3DWM在不同任务上的定性结果,验证了模型的3D场景理解与推理能力。实验结果表明,HL3DWM能更好地理解3D空间,在3D问答、3D密集描述等多项任务中实现性能提升。
面对3D问答任务,当被问“乐器盒在椅子的哪一侧”时,HL3DWM 能准确回答“椅子的右侧”;在3D密集描述任务中,当被要求“描述3D场景中的这个物体”时,HL3DWM回答“这是一张长方形的棕色桌子,周围摆放着椅子”;在3D场景描述任务中,当被要求“描述该3D场景”时,HL3DWM回答“这是一个宽敞的空间,包含地面、墙壁和窗户。房间中心附近有一张沙发,另一张沙发靠墙摆放,房间内还有一把扶手椅。此外,房间内放置了多张桌子。在房间的角落有一个隔断。房间内还有一盏灯”;面对具身任务规划,当被问“我想把书整理到书架上,该怎么做”时,HL3DWM不仅能理解空间,更能制定清晰、可执行的步骤规划:“1.走到书架旁;2.拿起地上的书,将它们放到书架上;3.拿起桌上的书,将它们放到书架上;4.拿起剩余的书,将它们有序摆放在书架上。”
研究结论
本文提出了一种类人范式3D大语言模型(HL3DWM),通过模仿人类理解3D世界的方式和人类行为,从而实现3D场景理解与推理。该模型能够有效地为处理任务提供全局信息和细节的任务相关信息。
具体而言,HL3DWM通过设计的物体感知图像检索(OIR)模块,在接收指令后提取任务相关信息,并检索包含细节的任务相关图像;再通过设计的环境感知信息聚合(EIA)模块来整合周边环境信息,为任务提供充分的空间环境支持。实验结果表明,该方法在多种3D视觉-语言任务中取得了优异的性能,能将点云的全局信息和图像的精细细节信息进行有效融合。
HL3DWM的出现证明了让大模型像人一样去“观察”和“理解”世界的重要性。这种学习人类思维方式、融合全局“地图全局”和局部“超清特写”的新范式,不仅为3D场景理解和执行复杂任务提供了全新视角,也为未来具身智能体(如家庭服务机器人)真正走进复杂的现实环境,推开了一扇充满想象力和人文关怀的智慧之门。
更多方法细节与实验分析,请参考原论文。
论文标题:Human-Like 3D Scene Understanding and Reasoning via Image Retrieval
论文作者:Jiakang Yuan,Mingsheng Li,Lin Zhang,Tao Chen
从前沿顶会到产业落地:眸深智能加速“具身大脑”普及
在具身智能与3D视觉-语言融合研究的核心赛道,如何让机器人真正读懂世界、理解3D空间、实现高效推理,一直是亟待攻克的关键问题。具身智能基础模型公司眸深智能正在通过自研的世界动作模型(World Motion Model),赋予机器人理解物理规律和动作原理的通用能力,提升泛化水平,让机器人拥有一颗原生大脑。















