结构化扩展拿下Agent工具检索新SOTA，精准找到API

量子位·2026年03月18日 21:06

大模型却找不到工具，竟是因为工具文档没写

在大模型时代，Tool-Use已经成为智能体能力的核心组成部分。

从代码生成到数据分析，从网页查询到复杂API调用，LLM正在学会“使用工具”。但一个现实问题越来越明显：

工具真的难找。

来自宁波东方理工大学/宁波数字孪生（东方理工）研究院沈晓宇团队的研究工作，在ICLR 2026发表论文：

《Tools Are Under-Documented: Simple Document Expansion Boosts Tool Retrieval》

论文提出一个直接但重要的判断：

当前工具检索的瓶颈，往往不在模型能力，而在于工具文档。

目前，该论文已被ICLR 2026接收。

背景：Tool Retrieval的隐形障碍

随着API数量扩展至数千甚至上万，工具检索逐渐成为Tool-Use系统中的关键前置步骤：模型必须先在庞大的工具集合中找到合适的工具，随后才能完成调用与执行。

近年来，一系列benchmark（如ToolBench、ToolRet等）推动了相关模型的发展。然而，在实际应用中，一个基础但长期被忽视的问题始终存在：工具文档本身往往质量参差不齐。许多工具的说明存在结构不统一、描述不完整等情况，不同API的功能介绍粒度差异很大。同时，用户查询通常以自然语言表达具体任务需求，而工具文档则多以简略的技术描述或函数说明呈现，二者之间往往存在明显的semantic gap。

因此，问题并不完全在于模型是否能够理解工具，而在于当前工具文档缺乏足够结构化、可检索、并与用户查询语义对齐的表达方式。在这种情况下，即使强大的检索模型也很难稳定地匹配到正确工具。

核心思路：先优化文档，再训练模型

该工作提出了一个看似简单却系统化的解决方案：

对工具文档进行结构化扩展（document expansion），再基于扩展文档进行训练与评估。

具体来说，通过对工具文档进行结构化扩展（document expansion），将原本零散、简略的API描述补充为更完整、可检索的语义信息，然后基于扩展后的文档重新构建训练数据并训练模型。

相比直接改进模型结构，这种方式从数据与文档质量入手，系统性地缩小用户查询与工具描述之间的语义差距。

论文构建了三个关键组件：

1. TOOL-REX：扩展版工具检索基准

在原有ToolRet基准的基础上，论文引入了结构化的tool_profile字段，对工具文档进行系统扩展。新增信息包括：function（工具的核心功能）、tags（描述工具能力的关键词）、when_to_use（适用场景与任务类型）、limitation（使用限制或边界条件）。

这些字段通过一个低成本的自动化文档扩展pipeline构建完成。具体来说，首先使用Qwen3-32B对原始工具文档进行结构化扩展，将原本分散在文档中的功能描述、使用条件和限制信息整理为统一的tool_profile结构。扩展过程严格以原始文档为依据，所有生成内容都必须能够在原文中找到语义支持。

随后，系统使用LLaMA-3.1-70B对生成结果进行语义一致性验证，检查扩展字段是否忠实于原始文档，并通过规则检查确保输出结构合法且不为空。对于少量未通过验证的样本，再使用更强的模型（如GPT-4o）进行重新生成与修正。最后，通过抽样人工审核验证扩展文档的真实性与一致性，从而确保整个扩展过程既自动化又可靠。

通过这一“LLM扩展→LLM校验→再生成修正→人工抽检”的流程，原始工具文档被系统性地补充为结构化的工具描述，使文档语义更加完整，同时保持对原始工具信息的忠实表达。

2. 大规模训练语料

基于一套低成本的自动化数据构建pipeline，论文进一步生成了大规模工具检索训练数据，包括：

50k embedding训练样本

200k reranker训练样本

这些数据均基于结构化扩展后的文档构建，形成了目前规模最大的结构化工具检索训练语料之一，为后续模型训练提供了更丰富且语义对齐的数据基础。

3. 两个专用模型

在上述数据基础上，论文训练了两个专门面向工具检索场景的模型，填补了该领域缺乏专用模型的空白：

Tool-Embed：面向dense retrieval的嵌入模型，用于在大规模工具库中进行高效召回

Tool-Rank：基于大语言模型的LLM reranker，用于在候选工具集合中进行精细排序

通过“结构化文档+大规模数据+专用模型”的组合，该工作构建了一套完整的工具检索解决方案。

结果：简单扩展，显著提升

在ToolRet与新构建的TOOL-REX基准上的实验表明，仅通过对工具文档进行结构化扩展，就能够带来稳定且显著的性能提升。

首先，文档扩展本身就能明显改善检索效果。在相同模型结构下，仅替换为扩展后的工具文档，检索性能便出现明显提升，说明文档表达质量对工具检索具有直接影响。

在此基础上，论文训练的两个专用模型Tool-Embed与Tool-Rank在多个评测任务上进一步达到新的SOTA。不仅整体指标提升明显，在具体案例分析中也可以看到更加直观的改进：原本在候选列表Top10之外的正确工具，能够被重新检索并提升到更靠前的位置。

这些提升并不是来自更复杂的推理过程，也不是依赖更大规模的模型，而是源于更完整、更结构化的语义表达。

更深层的发现

论文进一步分析了不同结构化字段对检索性能的贡献，发现不同信息在检索流程中发挥着不同作用。

其中，function与tags等字段对dense retrieval的影响最为显著，它们为模型提供了更加明确的功能语义，使工具在向量空间中的表示更加清晰。而when_to_use等场景描述则在reranking阶段发挥更重要的作用，帮助模型判断工具是否真正符合具体任务需求。

同时，扩展后的文档不仅能够提升训练阶段的效果，也能在评测过程中带来更稳定的检索表现，减少因描述不完整导致的语义匹配误差。

这些分析共同表明：

文档质量本身就是检索系统的重要组成部分。

总结

当“模型增强”成为默认方向时，这项研究给出了一个更朴素却有效的答案：

在工具检索任务中，提升文档表达质量，往往比增加模型复杂度，更直接地改善检索效果。

Better documentation → Better retrieval.

论文标题：Tools are under-documented: Simple Document Expansion Boosts Tool Retrieval

第一作者：路璇、黄浩航

通讯作者：沈晓宇（宁波东方理工大学）

arxiv：https://arxiv.org/abs/2510.22670

github：https://github.com/EIT-NLP/Tool-REX

作者介绍：第一作者路璇、黄浩航，分别为宁波东方理工大学/宁波数字孪生（东方理工）研究院沈晓宇团队博士生（宁波东方理工大学与上海交通大学联培）、实习生，研究方向信息检索和高效推理。在ICLR、CVPR、EMNLP等顶级会议发表多篇论文。更多科研项目成果请参阅实验室主页：https://idt.eitech.edu.cn/nlp/#/

本文来自微信公众号“量子位”，作者：EIT-NLP团队，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。