超越英伟达Describe Anything,中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
近期,DeepSeek-OCR提出了“Vision as Context Compression”的新思路,然而它主要研究的是通过模型的OCR能力,用图片压缩文档。
那么自然图像是否也能作为文本的压缩呢?中科院&字节联合提出的「Grasp Any Region」提供了新思路。
团队认为,他们的最新工作Grasp Any Region (GAR)所实现的精准region captioning能力,为构建自然图像的Dense Caption,提供了潜在的可能路径之一。
具体而言,GAR具备三种能力:
1、精准描述用户指定的 region。
2、建模多个 region 之间的关系
3、进行复杂的组合推理(例如图片所示的非实体判别)。
△
下面来具体看看。
局部细节与全局信息的trade-off
首先,什么是Region MLLMs?
与传统MLLMs不同,Region MLLMs旨在对图片/视频内容进行细粒度、可交互式的理解。
具体来说,用户可以提供各种各样的visual prompts (regions)以及user instructions,模型需要基于此,对特定region进行准确理解。
例如,“请描述这个区域”,或“区域1和区域2之间是什么关系”,甚至判断“区域1和区域2是否在镜子当中”。
其次,为什么要研究Region MLLMs?
DeepSeek-OCR的本质是依赖多模态大模型对图片进行精准caption的能力,也初步探索了基于自然图片的全图caption进行信息压缩的道路。
然而,全图的caption往往难以评测。
Region Caption就不一样了,对于用户指定的Region,很容易就可以从色彩、纹理、形状、材质等基础方面,客观地对模型的caption进行评测,正如英伟达Describe-Anything所做的DLC-Bench那样。
如果一个模型有了精准的region caption能力,那么就可以结合SAM,将精准的region captions其merge成一个详细且准确的全图caption,进一步实现了信息的压缩。
更重要的是,这部分detailed caption不仅能惠及 MLLM 的预训练,也能辅助生成模型理解复杂的用户指令。
此外,Region caption本身也能作为AIGC中的编辑模型和场景生成模型的重要数据来源。
多年以来,Region MLLMs一直夹在局部细节与全局信息之间的两难困境。
浙江大学研究员所提出的Osprey通过masked pooling获得局部特征,导致局部细节丢失;
而英伟达所提出的DAM(Describe Anything Model)额外输入一张裁切后的子图,导致全局信息丢失。
△图 2:GAR-1B与DAM-3B针对同一区域描述的对比
比如,上面这个例子展示了DAM全局信息丢失的现象。用户指定的区域明明是一个青蛙样式的拖鞋,但是DAM会错误识别为青蛙。
有图有真相
相比之下,GAR能够对用户指定区域实现精确的理解,产出更准确的描述。
例如,GAR能够正确识别并描述物体,而DAM均出现了错误识别。
并且GAR能够针对极小物体,进行精准识别。
还能够针对极小物体进行精准识别。
进而,它能利用极小的图像细节,正确建模物体之间的关系。
特别是下图右侧这个例子,OpenAI-o3和Gemini-2.5-Pro都误认为人在看书。
然而,实际上人的眼睛正在看镜头,她仅仅是拿着书,而并非在看书。这凸显出GAR模型对于细节理解能力之强
GAR还能够进行复杂的组合推理,例如综合判断多个 prompt 是否在镜子当中。
此外,GAR能够很好的迁移至视频描述中,对视频中的appearence描述十分准确。
同时,在视频理解任务中,GAR能够精准地识别视频中的物体、人物与动作,进行语义层次的深度分析。
还能够对视频中的单个区域进行精准的理解,甚至还能识别motion信息(如下面右图的例子)。
哇哦,这么强劲的表现,究竟是怎么做到的?
细粒度+全局上下文
具体而言,团队在设计GAR模型时,遵循了「既要实现对提示区域的细粒度理解,同时又要保留并利用整个场景的全局上下文」的核心原则。
如下图所示,团队在传统MLLM架构中引入两个全新组件:
1、简洁高效的prompt encoding方案;
2、创新性的区域对齐(RoI-aligned)特征回放技术。
△
GAR通过视觉编码器对整个场景生成全局特征图,从而完整保留全局上下文信息。
同时,RoI-Aligned Feature Replay机制,能够为特定目标对象提取高保真度特征。
最终,全局上下文特征与精细化局部特征将共同输入LLM,以精准推理多个对象间的复杂关联与交互关系。
具体下面来看。
为将空间引导信息融入视觉骨干网络,团队引入了一套轻量级提示编码机制。
首先,用户指定的二值掩码,经一个简单的从零初始化的卷积块处理后生成mask embedding;
随后,将其与ViT的patch embedding相加,完成空间信息与视觉特征的融合。
为同时提供充足的局部细节与必要的全局上下文,团队提出区域对齐(RoI-aligned)特征回放技术。
具体而言,模型通过切图的方式处理完整、未裁剪的图像(包含了mask prompt),生成全局特征图,这类特征富含上下文信息。
接着,根据输入mask为感兴趣区域生成对应bbox,并采用RoI-Align技术,直接从全局特征图中提取该区域的相关特征,如图3右侧所示。
由于这些特征本质上源自“基于整幅图像计算的特征图”,因此天生具备上下文感知能力。
同时,回放后的特征能为后续语言模型提供用户指定区域的“高细节、高分辨率”的特征表示,助力其实现细粒度理解。
这种“富含上下文特征的重放”机制,让GAR既能“聚焦细节”,又不“忽视全局”。
实验证明,该设计可同时实现两大目标
1、提供充足局部细节。
2、保留全局上下文。
△
为提升模型“单区域基础目标识别”的能力,进而支持“多区域复杂关联推理”,团队设计了多阶段流程以生成大规模、高质量数据集,具体如图4所示。
具体而言,首先以种子数据集训练种子描述生成模型,基于此模型在ImageNet-21K这一细粒度图像分类数据集上推理,根据类别名称进行过滤,构建45.6万条细粒度描述数据;
随后结合上述两类数据集训练细粒度描述生成模型,并借助Panoptic Scene Graph数据集的标注信息,生成足量的关联感知型描述及问答对。
最终,团队使用这三部分数据对GAR模型进行训练。
阶段1:提升识别能力。
初始阶段,团队以Describe Anything-1.5M数据集为基础。
但团队发现,该数据集训练出来的模型(Seed-Captioner)在细粒度识别能力上存在不足:模型常常出现错误的物体识别,这限制了其在更复杂场景下生成描述的质量。
为解决这一问题,团队巧妙地引入ImageNet-21K数据,因其ImageNet-21K是极具代表性的细粒度分类数据集,以类别标签的详尽性与覆盖广度著称。
团队先通过Seed-Captioner生成初始region caption,再利用LLM将生成的描述与真实类别标签进行验证,最终得到含456K样本的精细化细粒度数据集。
随后,团队结合上述两类数据集,训练细粒度描述生成模型(Fine-Grained-Captioner)。
阶段2:支持多区域关联推理。
为进一步实现对多区域的关联理解与推理,团队引入了Panoptic Scene Graph (PSG)数据集。
具体步骤如下:
首先,调用Fine-Grained-Captioner为每个区域生成详细描述;
接着,将Qwen2.5-72B作为“LLM 融合器(LLM-Merger)”,结合PSG数据集提供的原始标注信息,生成三类数据:
1、144K条明确融入关联上下文的丰富目标描述;
2、144K组用于考察复杂关联理解能力的问答对;
3、126K道选择题。本阶段最终构建出含414K样本的关联数据集。
△
最后,本文引入GAR-Bench。
这是一套综合性基准测试套件,旨在系统性评估多模态大语言模型(MLLMs)的区域级理解能力,包括单区域理解以及多区域理解。
该测试集的构建遵循三大核心设计思路:
1、在任务设置上,略微侧重推理能力而非感知能力;
2、通过多 visual prompts 设计提升问题难度,例如部分问题的提示词数量甚至达到 7 个与 9 个;
3、控制单个提示词对应的区域面积,使其占比极小,平均仅为 4.4%。
该测试集具体分为两大核心组件:多提示词描述任务(GAR-Bench-Cap)与多维度视觉问答任务(GAR-Bench-VQA)。
其中,GAR-Bench-Cap用于评估模型的叙事整合能力——即能否以连贯的表述,描述多个visual prompt之间的复杂关联与交互关系。
GAR-Bench-VQA则进一步将模型理解能力拆解为两个关键维度:
1、针对给定提示词的基础属性感知能力;
2、以区域为核心的高阶组合推理能力,要求模型整合提示词及其周边上下文的信息进行推理。
例如,识别某个物体在全局中的排列位置(第几行第几列),以及判断某个物体是否为实体。
直逼最强推理模型
再来看看数据表现如何。
△
团队首先衡量GAR的高阶理解能力,它要求精准建模多个提示词之间的复杂关联。
为评估该能力,团队在GAR-Bench-VQA测试集上开展了全面对比实验。
如表1所示,GAR-8B模型取得了59.9分的优异综合成绩,其表现甚至超过了性能强劲的私有先进非推理模型GPT-4o,直逼最强推理模型o3和Gemini-2.5-Pro!
此外,GAR-1B模型的表现凸显了团队方法在效率与效果上的优势。
尽管该模型参数量远小于其他对比模型,但其综合得分为50.6分,性能超过了InternVL3-78B等大规模公开模型。
这一优势在细粒度感知任务中尤为明显:GAR-1B与GAR-8B在“纹理(Texture)”维度的得分分别达到69.0分和75.9分,显著超越其他模型。
进一步地,团队专注于衡量GAR生成caption的准确性。团队在一系列高难度数据集上对GAR模型进行基准测试,结果持续证明其具备当前最先进的性能。
△
如表2所示,在GAR-Bench-Cap测试集上,GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩,表现甚至超过Gemini-2.5-Pro等性能强劲的私有模型。
表3中DLC-Bench的测试结果进一步验证了这一优势:无论以LLaMA3.1还是GPT-4o作为评判模型,GAR-1B与GAR-8B的性能均优于DAM-3B,成为新的SOTA。
△
如表4所示,GAR模型在Ferret-Bench与MDVP-Bench上的零样本表现尤为值得关注。
在这两个测试集的所有细分类别中,GAR模型均位列第一。其中在MDVP-Bench测试集上,GAR模型的领先优势更为显著:GAR-8B在自然图像任务中取得178.6分,该成绩大幅超过所有竞品模型。
综上,通过在多个基准测试集上的全面评估可明确证明:在生成丰富、准确且细节化的局部描述任务中,GAR模型已成为新的当前最先进方案。
△
甚至,团队惊喜地发现,GAR的能力可以zero-shot迁移至video。团队直接将GAR模型扩展至视频任务,并分别在VideoRefer-Bench-D与VideoRefer-Bench-Q测试集上进行评估,结果如表6、表7所示。
在zero-shot的设置下,GAR-8B模型性能超过DAM-8B。更重要的是,如表7所示,zero-shot的GAR-8B甚至优于in-domain训练的VideoRefer-7B模型!这表明其强大的理解能力可轻松迁移至视频任务。
不过,由于GAR模型实际仅使用图像数据训练,因此在与时间相关的任务上得分偏低。例如表6中的TD与表7中的Future Prediction,均体现出这一局限。
团队相信,GAR将推动MLLM真正理解稠密的视觉世界,也为信息压缩提供了新的视角与可能。
最后,同时,团队认为,GAR可以作为一个很好的Data-engine的工具使用。
例如——
1、训练一个多模态理解模型时,往往需要精细的图像/视频描述作为预训练,试试GAR吧。
2、练一个文生图或文生视频模型时,往往需要精细的描述以提升模型对于复杂文本的指令遵循能力,试试GAR吧。
3、训练一个细粒度的编辑模型时,往往缺乏针对待编辑区域的精准描述,也试试GAR吧~
此外,GAR可以天然作为一个Reward Model,作为多模态理解任务的中post-training阶段使用,提供准确的区域理解奖励信号!
而且,团队的论文、代码、和模型全部开源了,并且支持了基于gradio的本地部署。
下面是gradio demo的使用姿势,用户只需要通过点击鼠标,GAR就会根据SAM生成的mask,对指定区域进行十分细节的描述,欢迎大家试用~
论文:https://huggingface.co/papers/2510.18876GitHub:https://github.com/Haochen-Wang409/Grasp-Any-Region抱抱脸:https://huggingface.co/collections/HaochenWang/grasp-any-regionhttps://huggingface.co/spaces/jbilcke-hf/SNIPED_grasp-any-region
本文来自微信公众号“量子位”,作者:GAR团队,36氪经授权发布。















