超越英伟达Describe Anything，中科院 & 字节联合提出「GAR」，为DeepSeek-OCR添砖加瓦

量子位·2025年10月28日 15:25

自然图像也能作为文本的压缩

近期，DeepSeek-OCR提出了“Vision as Context Compression”的新思路，然而它主要研究的是通过模型的OCR能力，用图片压缩文档。

那么自然图像是否也能作为文本的压缩呢？中科院&字节联合提出的「Grasp Any Region」提供了新思路。

团队认为，他们的最新工作Grasp Any Region (GAR)所实现的精准region captioning能力，为构建自然图像的Dense Caption，提供了潜在的可能路径之一。

具体而言，GAR具备三种能力：

1、精准描述用户指定的 region。

2、建模多个 region 之间的关系

3、进行复杂的组合推理（例如图片所示的非实体判别）。

△

下面来具体看看。

局部细节与全局信息的trade-off

首先，什么是Region MLLMs？

与传统MLLMs不同，Region MLLMs旨在对图片/视频内容进行细粒度、可交互式的理解。

具体来说，用户可以提供各种各样的visual prompts (regions)以及user instructions，模型需要基于此，对特定region进行准确理解。

例如，“请描述这个区域”，或“区域1和区域2之间是什么关系”，甚至判断“区域1和区域2是否在镜子当中”。

其次，为什么要研究Region MLLMs？

DeepSeek-OCR的本质是依赖多模态大模型对图片进行精准caption的能力，也初步探索了基于自然图片的全图caption进行信息压缩的道路。

然而，全图的caption往往难以评测。

Region Caption就不一样了，对于用户指定的Region，很容易就可以从色彩、纹理、形状、材质等基础方面，客观地对模型的caption进行评测，正如英伟达Describe-Anything所做的DLC-Bench那样。

如果一个模型有了精准的region caption能力，那么就可以结合SAM，将精准的region captions其merge成一个详细且准确的全图caption，进一步实现了信息的压缩。

更重要的是，这部分detailed caption不仅能惠及 MLLM 的预训练，也能辅助生成模型理解复杂的用户指令。

此外，Region caption本身也能作为AIGC中的编辑模型和场景生成模型的重要数据来源。

多年以来，Region MLLMs一直夹在局部细节与全局信息之间的两难困境。

浙江大学研究员所提出的Osprey通过masked pooling获得局部特征，导致局部细节丢失；

而英伟达所提出的DAM(Describe Anything Model)额外输入一张裁切后的子图，导致全局信息丢失。

△图 2：GAR-1B与DAM-3B针对同一区域描述的对比

比如，上面这个例子展示了DAM全局信息丢失的现象。用户指定的区域明明是一个青蛙样式的拖鞋，但是DAM会错误识别为青蛙。

有图有真相

相比之下，GAR能够对用户指定区域实现精确的理解，产出更准确的描述。

例如，GAR能够正确识别并描述物体，而DAM均出现了错误识别。

并且GAR能够针对极小物体，进行精准识别。

还能够针对极小物体进行精准识别。

进而，它能利用极小的图像细节，正确建模物体之间的关系。

特别是下图右侧这个例子，OpenAI-o3和Gemini-2.5-Pro都误认为人在看书。

然而，实际上人的眼睛正在看镜头，她仅仅是拿着书，而并非在看书。这凸显出GAR模型对于细节理解能力之强

GAR还能够进行复杂的组合推理，例如综合判断多个 prompt 是否在镜子当中。

此外，GAR能够很好的迁移至视频描述中，对视频中的appearence描述十分准确。

同时，在视频理解任务中，GAR能够精准地识别视频中的物体、人物与动作，进行语义层次的深度分析。

还能够对视频中的单个区域进行精准的理解，甚至还能识别motion信息（如下面右图的例子）。

哇哦，这么强劲的表现，究竟是怎么做到的？

细粒度+全局上下文

具体而言，团队在设计GAR模型时，遵循了「既要实现对提示区域的细粒度理解，同时又要保留并利用整个场景的全局上下文」的核心原则。

如下图所示，团队在传统MLLM架构中引入两个全新组件：

1、简洁高效的prompt encoding方案；

2、创新性的区域对齐（RoI-aligned）特征回放技术。

△

GAR通过视觉编码器对整个场景生成全局特征图，从而完整保留全局上下文信息。

同时，RoI-Aligned Feature Replay机制，能够为特定目标对象提取高保真度特征。

最终，全局上下文特征与精细化局部特征将共同输入LLM，以精准推理多个对象间的复杂关联与交互关系。

具体下面来看。

为将空间引导信息融入视觉骨干网络，团队引入了一套轻量级提示编码机制。

首先，用户指定的二值掩码，经一个简单的从零初始化的卷积块处理后生成mask embedding；

随后，将其与ViT的patch embedding相加，完成空间信息与视觉特征的融合。

为同时提供充足的局部细节与必要的全局上下文，团队提出区域对齐（RoI-aligned）特征回放技术。

具体而言，模型通过切图的方式处理完整、未裁剪的图像（包含了mask prompt），生成全局特征图，这类特征富含上下文信息。

接着，根据输入mask为感兴趣区域生成对应bbox，并采用RoI-Align技术，直接从全局特征图中提取该区域的相关特征，如图3右侧所示。

由于这些特征本质上源自“基于整幅图像计算的特征图”，因此天生具备上下文感知能力。

同时，回放后的特征能为后续语言模型提供用户指定区域的“高细节、高分辨率”的特征表示，助力其实现细粒度理解。

这种“富含上下文特征的重放”机制，让GAR既能“聚焦细节”，又不“忽视全局”。

实验证明，该设计可同时实现两大目标

1、提供充足局部细节。

2、保留全局上下文。

△

为提升模型“单区域基础目标识别”的能力，进而支持“多区域复杂关联推理”，团队设计了多阶段流程以生成大规模、高质量数据集，具体如图4所示。

具体而言，首先以种子数据集训练种子描述生成模型，基于此模型在ImageNet-21K这一细粒度图像分类数据集上推理，根据类别名称进行过滤，构建45.6万条细粒度描述数据；

随后结合上述两类数据集训练细粒度描述生成模型，并借助Panoptic Scene Graph数据集的标注信息，生成足量的关联感知型描述及问答对。

最终，团队使用这三部分数据对GAR模型进行训练。

阶段1：提升识别能力。

初始阶段，团队以Describe Anything-1.5M数据集为基础。

但团队发现，该数据集训练出来的模型(Seed-Captioner)在细粒度识别能力上存在不足：模型常常出现错误的物体识别，这限制了其在更复杂场景下生成描述的质量。

为解决这一问题，团队巧妙地引入ImageNet-21K数据，因其ImageNet-21K是极具代表性的细粒度分类数据集，以类别标签的详尽性与覆盖广度著称。

团队先通过Seed-Captioner生成初始region caption，再利用LLM将生成的描述与真实类别标签进行验证，最终得到含456K样本的精细化细粒度数据集。

随后，团队结合上述两类数据集，训练细粒度描述生成模型(Fine-Grained-Captioner)。

阶段2：支持多区域关联推理。

为进一步实现对多区域的关联理解与推理，团队引入了Panoptic Scene Graph (PSG)数据集。

具体步骤如下：

首先，调用Fine-Grained-Captioner为每个区域生成详细描述；

接着，将Qwen2.5-72B作为“LLM 融合器（LLM-Merger）”，结合PSG数据集提供的原始标注信息，生成三类数据：

1、144K条明确融入关联上下文的丰富目标描述；

2、144K组用于考察复杂关联理解能力的问答对；

3、126K道选择题。本阶段最终构建出含414K样本的关联数据集。

△

最后，本文引入GAR-Bench。

这是一套综合性基准测试套件，旨在系统性评估多模态大语言模型（MLLMs）的区域级理解能力，包括单区域理解以及多区域理解。

该测试集的构建遵循三大核心设计思路：

1、在任务设置上，略微侧重推理能力而非感知能力；

2、通过多 visual prompts 设计提升问题难度，例如部分问题的提示词数量甚至达到 7 个与 9 个；

3、控制单个提示词对应的区域面积，使其占比极小，平均仅为 4.4%。

该测试集具体分为两大核心组件：多提示词描述任务（GAR-Bench-Cap）与多维度视觉问答任务（GAR-Bench-VQA）。

其中，GAR-Bench-Cap用于评估模型的叙事整合能力——即能否以连贯的表述，描述多个visual prompt之间的复杂关联与交互关系。

GAR-Bench-VQA则进一步将模型理解能力拆解为两个关键维度：

1、针对给定提示词的基础属性感知能力；

2、以区域为核心的高阶组合推理能力，要求模型整合提示词及其周边上下文的信息进行推理。

例如，识别某个物体在全局中的排列位置（第几行第几列），以及判断某个物体是否为实体。

直逼最强推理模型

再来看看数据表现如何。

△

团队首先衡量GAR的高阶理解能力，它要求精准建模多个提示词之间的复杂关联。

为评估该能力，团队在GAR-Bench-VQA测试集上开展了全面对比实验。

如表1所示，GAR-8B模型取得了59.9分的优异综合成绩，其表现甚至超过了性能强劲的私有先进非推理模型GPT-4o，直逼最强推理模型o3和Gemini-2.5-Pro！

此外，GAR-1B模型的表现凸显了团队方法在效率与效果上的优势。

尽管该模型参数量远小于其他对比模型，但其综合得分为50.6分，性能超过了InternVL3-78B等大规模公开模型。

这一优势在细粒度感知任务中尤为明显：GAR-1B与GAR-8B在“纹理（Texture）”维度的得分分别达到69.0分和75.9分，显著超越其他模型。

进一步地，团队专注于衡量GAR生成caption的准确性。团队在一系列高难度数据集上对GAR模型进行基准测试，结果持续证明其具备当前最先进的性能。

△

如表2所示，在GAR-Bench-Cap测试集上，GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩，表现甚至超过Gemini-2.5-Pro等性能强劲的私有模型。

表3中DLC-Bench的测试结果进一步验证了这一优势：无论以LLaMA3.1还是GPT-4o作为评判模型，GAR-1B与GAR-8B的性能均优于DAM-3B，成为新的SOTA。

△

如表4所示，GAR模型在Ferret-Bench与MDVP-Bench上的零样本表现尤为值得关注。

在这两个测试集的所有细分类别中，GAR模型均位列第一。其中在MDVP-Bench测试集上，GAR模型的领先优势更为显著：GAR-8B在自然图像任务中取得178.6分，该成绩大幅超过所有竞品模型。

综上，通过在多个基准测试集上的全面评估可明确证明：在生成丰富、准确且细节化的局部描述任务中，GAR模型已成为新的当前最先进方案。

△

甚至，团队惊喜地发现，GAR的能力可以zero-shot迁移至video。团队直接将GAR模型扩展至视频任务，并分别在VideoRefer-Bench-D与VideoRefer-Bench-Q测试集上进行评估，结果如表6、表7所示。

在zero-shot的设置下，GAR-8B模型性能超过DAM-8B。更重要的是，如表7所示，zero-shot的GAR-8B甚至优于in-domain训练的VideoRefer-7B模型！这表明其强大的理解能力可轻松迁移至视频任务。

不过，由于GAR模型实际仅使用图像数据训练，因此在与时间相关的任务上得分偏低。例如表6中的TD与表7中的Future Prediction，均体现出这一局限。

团队相信，GAR将推动MLLM真正理解稠密的视觉世界，也为信息压缩提供了新的视角与可能。

最后，同时，团队认为，GAR可以作为一个很好的Data-engine的工具使用。

例如——

1、训练一个多模态理解模型时，往往需要精细的图像/视频描述作为预训练，试试GAR吧。

2、练一个文生图或文生视频模型时，往往需要精细的描述以提升模型对于复杂文本的指令遵循能力，试试GAR吧。

3、训练一个细粒度的编辑模型时，往往缺乏针对待编辑区域的精准描述，也试试GAR吧～

此外，GAR可以天然作为一个Reward Model，作为多模态理解任务的中post-training阶段使用，提供准确的区域理解奖励信号！

而且，团队的论文、代码、和模型全部开源了，并且支持了基于gradio的本地部署。

下面是gradio demo的使用姿势，用户只需要通过点击鼠标，GAR就会根据SAM生成的mask，对指定区域进行十分细节的描述，欢迎大家试用~

论文：https://huggingface.co/papers/2510.18876GitHub：https://github.com/Haochen-Wang409/Grasp-Any-Region抱抱脸：https://huggingface.co/collections/HaochenWang/grasp-any-regionhttps://huggingface.co/spaces/jbilcke-hf/SNIPED_grasp-any-region

本文来自微信公众号“量子位”，作者：GAR团队，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

超越英伟达Describe Anything，中科院 & 字节联合提出「GAR」，为DeepSeek-OCR添砖加瓦

局部细节与全局信息的trade-off

有图有真相

细粒度+全局上下文

直逼最强推理模型

最近内容

下一篇