微软研究院杨玉庆：Agent 的注意力系统｜Attention

绿洲资本·2025年09月05日 11:41

参赞生命力

长上下文理解能力，是大模型走向复杂任务和系统调度的关键路径。

而在解决 Prefill 阶段的计算瓶颈这件事上，TriangleMix 是目前少有能兼顾性能与精度的底层结构性优化方法。

这个方法由微软研究院首席研发经理，杨玉庆博士等人在论文《TriangleMix: A Lossless and Efficient Attention Pattern for Long-Context Prefilling》中提出：一种可免训练（Training-free)、适用于超长输入的 Attention 模式组合。该方法通过浅层致密、深层三角稀疏的结构设计，在维持模型输出质量的同时，显著降低了预填阶段的延迟。

TriangleMix 是 Attention 的结构性分层方案，可在 32K–128K 长度下将首 Token 延迟（Time to First Token，下文简称 TTFT）降低 12%–32%，Attention 核延迟提升 3.7×–15.3×；

其背后逻辑是：通过梯度敏感性分析裁剪掉无用的 Middle Q-K 区块，仅保留 Streaming 与末尾聚合区域；

这项优化是免训练的，且可与动态稀疏（如 MInference、FlexPrefill）叠加，在不改变架构前提下实现端到端降本增效；

对于杨博士的团队而言，TriangleMix 并不是一个独立的工作，而是对注意力机制、信息组织方式、Context 编排逻辑乃至关于智能体原生系统思考中的一部分。

但，TriangleMix 背后对 Attention 的理解究竟发生了哪些改变？它为什么能 “几乎无损” 地删掉一大块计算？这一方法又能否延展到 Memory、Retrieval 和更大的智能体系统架构中？正是基于这些疑问，我们和杨博士展开了一场深度对谈。

在正式进入对谈内容之前，先快速了解一下 TriangleMix 的技术动机与核心结构。

在处理长上下文任务时，大模型的 Attention 通常面临预填充阶段（Prefill）计算量激增的问题，其复杂度随输入长度呈 O(N²) 增长。尤其在 32K–128K 的输入规模下，这会带来显著的显存压力和 TTFT，成为实际部署中，阻碍性能提升的主要瓶颈。

TriangleMix 针对这一问题提出了一种分层稀疏的 Attention 架构：通过分析各层 Attention 对最终输出的梯度敏感性，作者发现模型在深层中对 Middle Q-K 区域的依赖极低。因此，他们在浅层保留标准 Dense attention，而在深层切换为 Triangle-shaped mask —— 跳过中间部分，仅保留前段（Streaming 区）与末端（Last Q-K 区），因此显著降低了深层 Attention 的计算成本，使复杂度从 O(N²) 降至 O(N)。

在实际应用中，TriangleMix 采取了层级 Attention 切分策略：前 16 层采用标准 Full attention，后 16 层切换为 Triangle attention，仅激活 Attention matrix 的下三角区域（即每个 Q 只能 Attend 于其前方的 K）。

这一结构支持与现有的动态稀疏方法（如 MInference、FlexPrefill）的组合使用，构建 Hybrid 模式；同时也是免训练的结构优化方法，可直接部署在 Llama-3.1、Qwen2.5 等主流大模型上，无需重新训练。

论文实验证明，在 Llama‑3.1‑8B‑Instruct 和 Llama‑3‑8B‑262K 上，将 Triangle attention 应用于后 62.5% 的层（即 L_tri_start = 12）时，模型仍保留了 99.7% 的原始性能。

这意味着：TriangleMix 能够在大部分深层中使用 O(N) 的注意力结构，而不显著损失表达能力，从而实现显著的推理加速。

论文的实测的结果也显示出，TriangleMix 能在精度几乎无损的情况下，显著降低 Latency 与 Memory 消耗。

实测结果展示

在 Llama‑3.1‑8B‑Instruct 模型中，Triangle attention 将每层内核延迟（Kernel latency）从 750m（128K Context）压缩至 49ms，加速比例达到 15.3×，TTFT 下降 12%–32%。

在 RULER（Revisiting Long Context Benchmark）和 LongBench 等多个基准测试任务（Benchmark Tasks）上，TriangleMix 与 Dense attention 几乎保持相同的准确率表现，验证了其 “免训练 + 几乎无损” 的结构优势。

我们梳理了与杨博士的深度访谈，围绕论文背后的研究洞察，以及 TriangleMix 所连接的整个系统演化路径展开，覆盖了从结构设计到部署效率等话题的探讨。

本文为整理后的访谈内容，阅读时间约 15 分钟。

Enjoy

“所以我认为，与其单独谈 Attention，我们更应该从一个更高的视角来看待它——把它放在智能体系统、训练机制、Context 表达、任务结构这些更大的议题之中。

—— 杨博士

绿洲: 杨博士好，您供职于微软研究院、一个学界与产业界结合的地方。可以为我们介绍一下，从产业界和学界交互的视角，如何看待和思考 TriangleMix 这个研究？

杨博士: 先介绍一下目前整体的工作方向和研究框架。

我们（微软亚洲研究院上海机器学习系统团队）主要针对大模型和智能体系统开展系统和算法的协同创新研究，工作主要集中在两大块，分别是：

第一部分，针对大模型，尤其是长上下文场景，的高效计算。特别侧重在稀疏注意力（Sparse Attention）机制的研究和加速。

在这方面，除了我们今天讨论的 TriangleMix，团队的主要成果还包括：

MInference（NeruIPS 24）和MMInference（ICML 25）将稀疏计算引入 Attention 中，主要是在 Prefilling 阶段降低运算量和延迟（Time-to-First-Token，TTFT）；

Retrieval Attention和后续工作RetroInfer将 Vector Index 的检索技术引入 Attention 的计算和 KV Cache 组织，实现低 GPU 内存的大推理吞吐；

SCBench（ICLR 25）在 KV Cache Sharing 的视角下对多种稀疏化方法进行了系统性的分类和性能比对；

LeanK（EMNLP 25）在探讨现在主流的位置编码技术，对 KV Cache 频域分布（Dimension 维度）的影响，并通过减低频域上的冗余来降低对存储和计算的需求；

另一部分，我们称为 “智能体原生的系统”（Agent-Native Systems），是针对智能体系统的开发、优化和高效部署进行系统性的研究。这部分工作是将智能体（Agent）视作系统研究的一等公民，而不是只关注其中的模型部分。

因为我们很早就意识到：当系统的服务对象是 Agent，而不是单次调用的大模型时，智能体原生的系统具有更广阔的性能提升和效率优化的空间，从而能够使得智能体不仅更加高效、低成本，还能进一步提升其工作质量，更好的解决问题和创造真实价值。

以我们 2024 年提出的 Parrot（OSDI 24）系统为例，它的出发点是 “智能体系统” 中，计算图能够为推理系统带来额外的优化空间。传统的大模型推理系统主要面向的是 “单次请求” 的优化，但现实中没有哪个 Agent 是靠单次调用就可以完成任务的。只考虑单次调用的系统在智能体层面上其性能通常不是最优的。

绿洲：请展开说说 Agent 无法靠单次调用完成任务这个点。

杨博士: Agent 本质上是一组包含多次模型调用的软件程序，这些调用之间存在特定的依赖关系（比如前一次模型的输出会成为后一次模型的输入），还涉及工具使用或数据库查询等。这就要求系统层的优化必须考虑 “整个任务链条”，而不是单次推理。

在实际部署中，我们观察到两个值得注意的点：

第一，如果你从 Agent 全局视角进行系统级优化，基本上都能获得额外的性能提升，我们在一些场景下甚至看到了相对于传统方法 10 倍以上的提升。这是因为优化目标变了——不是 “让一个请求跑得快”，而是 “让一整组任务更协同”。

第二，还有一个很有意思的变化是：大模型流量越来越多不是由人发起的，而是由程序自己调用自己发起的。这些程序化的调用链，其实更像是一个新的系统，而不是传统意义上的 “用户输入 + 模型输出”。

绿洲：这种变化也会影响训练服务的架构设计？

杨博士: 是的，我们还启动了一个叫 AgentLightning 的新项目专注于智能体训练与优化。在这里，我们探讨的问题是：面对种类繁多形态各异的 Agent 实现，该如何构建标准化的训练服务（Training Service）。而且关键是，这个服务必须是非侵入式的，现在很多优化方法默认你要用某种框架，但很多真实项目根本没有统一框架，有些开发者反而觉得框架本身就是负担。

所以我们在做一个 “Agent 优化中间件”，它给基础模型的能力提升带来了新的可能性。Agent Lightning 提供的统一的数据接口，让不断产生的、具有实际意义的智能体交互数据以标准化的方式流入基础模型，从而进一步提升基础模型的能力；

另一方面，它也描绘了一幅未来 AI 应用开发的蓝图。通过将模型优化能力以服务的形式无缝赋能给所有智能体，Agent Lightning 显著降低了高性能自适应智能体开发、迭代和部署的门槛。

我们也关注免训练（Training-Free）的优化方式，比如提示词优化和上下文优化。

绿洲：那么 Context 的结构表达，是不是也成为一个关键问题？

杨博士: 是的。现在的智能体应用中，开发者往往需要将不同的数据对象放到上下文当中去，比如表格，文件，代码仓库等等。

但是这些不同的对象到模型可以处理的 Token 之间是需要进行转换（Rendering）的。由于模型训练中的数据分布的差异，这些具体的转换要求往往是因模型而异的，不恰当的转换很容易影响最终的性能。

比如一张表格，你是把它当文本展开、还是当结构化 Token 编码，结果是完全不同的。而这些决策，不该由 Agent 开发者来做，就像前端工程师也不用亲手管理 DOM 树。

所以我们做了一个叫 POML 的框架，有点像网页开发的 HTML 语言和前端框架，使得开发者只需要声明这是什么对象类型，系统就会自动把它转成底层结构，再映射到合适的 Token 表达上。这个工作不仅是一种开发者的便利工具，它还给我们提供了很多关于上下文的洞察，比如我们应该以何种粒度来理解、管理和优化模型的上下文。

这些洞察为我们 Attention + Context 架构的带来了很多有意思的思考。

绿洲：所以你们现在的工作重心，已经从单点模块优化，转向了整个系统逻辑的构建？

杨博士: 完全是这样。我们团队目前主攻 “智能体原生系统”，包括：

Agent 优化中间件：解耦 Agent Developer 与系统层，支持 Model training、Prompt 和 Context 优化等不同策略的调度。

多模态结构融合：比如，Video RAG、Memory 组件，我们将语义 Memory 与 Knowledge graph 融合，服务不同任务需求。

人群敏感系统设计：包括视觉障碍者的代码交互优化、认知障碍者日常训练的 Agent等，用 Agent 帮助特殊人群。

底层优化手段仍是 Attention + Memory + Retrieval，但我们现在更关注怎么把这些变成一个面向服务、可部署、可解释的系统方案。

因为我们的工作本身是系统视角的，所以我们不认为 Attention 是一个单一的模块。我认为，与其单独谈 Attention，我们更应该从一个更高的视角来看待它——把它放在智能体系统、训练机制、上下文表达、任务结构这些更大的议题之中。

TriangleMix 只是其中的一种形式创新。

但如果我们把目光放大，会发现注意力机制正在成为整个 AI 系统中最具策略性的控制中心——它不仅决定 “看哪里”，也决定 “从哪里调取信息”、“保留哪些部分”、“基于什么粒度和视角来匹配”，本质上它已经超出了 NLP 模块的定义，而成为 AI agent 系统的一种结构性底座。

—— 杨博士

绿洲：我们怎样去理解要把 Attention 放在更大的议题之中？TriangleMix 又是如何帮助这一目标的实现？

杨博士: 我们知道，大模型是一种可控生成模型，它的输出是输入所决定的。我们可以借鉴计算机系统中的 Memory Hierarchy ，通过一个注意力层级来理解这个从输入到输出的过程：

底层是我们称作 “无限知识池” 的部分，像互联网数据、数据库、文档、表格等，它可以是开放领域的知识也可以是特定领域的知识比如医疗手册、法律条文等；

中层是模型的输入在不同的语境下，也经常被叫做提示词（Prompt）、上下文（Context），模型记忆（Memory）等；

顶层是模型处理后的内部状态空间及其并生成的输出；

而在这三层之间：

底层 → 中层的上下文编排主要是由用户（开发者），检索器（Retriever），记忆模块等来完成，除了人工干预，这一步操作非常依赖基于检索操作，这是很多系统，比如常见的检索增强生成（RAG）或者智能体记忆系统的关键底层部件；

中层 → 顶层主要靠模型内部的计算来完成，Token 之间的相互关系的确定主要依赖于 Attention。

从这个视角来看，Attention 不是一个独立的模块，它是大模型的完整信息筛选机制的一部分，用一个通俗的比方来说，这套机制就像是信息的调度器：决定看哪、读哪、保留哪一部分信息。

从这个视角出发，我们其实可以重新定义：什么场景下该用哪一类 Attention？关键点就在于效率（Efficiency）和效能（Effectiveness）之间的 Trade-off。

绿洲：所以我们其实面对的是一个 “信息检索” 的问题？

杨博士: 是的，至少我们可以从这一个角度来理解这个问题。而且这个检索机制有两种路径可以走：Retrieval （由于基于 Embedding 的向量检索的广泛使用，我们在讨论中有时也会用 Embedding 来指代所有的 Retrieval 技术，尽管这样有时并不完全严谨）和 Attention。

如果是简单的问题，比如 Fact retrieval，问题（谜面）和答案（谜底）能简单一一对应，用 Embedding 检索是最高效的，像稀疏检索（比如基于 TF-IDF 的各种技术）或向量匹配都能完成的很好。

但如果问题更复杂，需要多步推理或组合多个知识块，仅靠 Embedding 就不够了，这时候 Attention 就更有优势。

从数学上看，Attention 是一种 Token 级别的内积检索：Query 去匹配 Key，再用 Softmax 分配权重，从 Value 中提取相关信息。你可以把它看成一个 “可微分的搜索引擎”，每个 Token 都在进行查询增强（Query Enrichment）。

绿洲：Attention 可以构成一种更有优势的检索机制？

杨博士: 对，我们可以从三个角度来看：

第一是粒度（Granularity）：Embedding 通常以 Chunk 或 Document 为单位，Attention 是以 Token 为单位，可以做更细的推理；

第二是维度（Dimension）：Embedding 通常几十到几百维，Attention 用的是多头机制（Multi-head），每个 “头” 对应的高维隐藏状态（Hidden State）加起来是千维级别起步，多视角表达更丰富；

第三是能力（Capacity）：Embedding model 通常训练弱、泛化差，而 Transformer 模型通过 Attention 机制激活已学知识路径，表达力和推理力都更强。

还有更重要的一点，Attention 不是一步完成的，而是它能构建一条推理路径（Reasoning path），从问题出发，一步步连接中间信息点，拼出完整的答案。这就像是一个连续的检索增强（Query enrichment），通过不停的变换 Query 的内容，完成最终的信息生成。

绿洲：类似于一种信息调度系统。

杨博士: 没错。为了更好的实现用户意图和已有信息之间的匹配，现代的搜索引擎中都会采用检索增强和改写的技术，这是靠一种 “显式增强”。而 LLM 里的内部计算，其实做的是 “自组织增强”：每个 Token 生成前都发起一次 Query，动态去匹配上下文中的 Key，找到对应的值。Attention 做的，是在模型内部实现一种检索增强。

我们的一系列 Attention 相关的工作，都可以理解为对大模型内部的信息检索机制的性能和效率的改进，比如对于计算的稀疏化（MInference 和 MMInference ），对于KV Cache 的再组织和稀疏化（Retrieval Attention 和后续工作 RetroInfer ）等。

TriangleMix 本身就是这一系列工作中比较新且有意思的延伸：它在结构上引入 Streaming 区、Middle Q-K 区、Last Q-K 区，然后基于 Gradient 分布判断哪些区域值得保留，哪些可以裁剪。Attention 不再是密集矩阵，而是任务驱动的信息选择系统。

而且 TriangleMix 只是其中的一种形式创新，但如果我们把目光放大，会发现注意力机制正在成为整个 AI 系统中最具策略性的控制中心。它不仅决定 “看哪里”，也决定 “从哪里调取信息”、“保留哪些部分”、“基于什么粒度和视角来匹配”，本质上，它已经超出了 NLP 模块的定义，而成为 AI Agent 系统的一种结构性底座。

绿洲：您刚刚提到的 “注意力层级” 结构中，最底层的 “Infinite Knowledge” 是全局记忆（Global memory）吗？很多论文还会提到 Global/Local/Context，这些概念怎么对应？

杨博士: 这些术语本质上是储存层级（Memory Hierarchy）的类比，不是严格定义。

最底层（Infinite pool）可以理解为全局知识（Global knowledge），包括全网内容、离线数据等。而中间层（Context）包括 Memory、Retrieval、Prompt 等用于 “准备输入” 的结构；最上层（Working Memory）则是模型当前处理 Token 的空间。

在这里我们关注的其实是两个属性：

一个是局部性（Locality）：大部分任务并不需要全局知识，而是聚焦于上下文中的某个子块；

另一个是动态性（Dynamicity）：每个任务所需的信息块都是动态变化的。

因为 Attention 的优化空间就来自这两个维度。

要真正做好这件事仍然很有挑战，尤其是在训练数据的质量、多模态对齐细节、长视频的分段编码策略等方面，但从架构层面看，它没有什么根本性的技术阻碍。

也正是在这些长上下文、多模态的实际系统里，我们愈发意识到：性能瓶颈往往不在模型本身，而在于背后庞大且不断增长的 K/V Cache 系统。

—— 杨博士

绿洲：所以其实你们现在的研究已经不局限在 Attention 层，进一步延伸到了 Memory 层是吗？

杨博士: 没错。我们很早就做过一些类似 Graph RAG 的尝试和商业应用，虽然没有正式发论文，但已经在项目中用起来了。对我们来说，这一层是智能体系统里非常自然、也必须深入的一个工作层面。

绿洲：但相较于 Attention 层的新结构百花齐放，Memory 层的研究是不是还缺乏真正的技术突破？

杨博士: 其实不是的。这一层现在反而是非常热的研究领域。也出现了很多开源或者闭源的Agent Memory实现，这些都属于底层记忆架构的创新尝试。

只是从技术上来看，很多方法和理念都来源于搜索引擎和知识图谱时代的技术，只是执行手段完全不同了。

举个例子，过去我们会按规则或主题切片对话内容，现在则由大模型自动完成这些任务；实体抽取也从早期的正则和 BERT，进化到了采用不同规模的语言模型 SLM 级别的生成式抽取，既可以提升性能也可以控成本。

这其中也引出了一个核心权衡：计算 vs 精度。Standard attention 是 Token 粒度的全连接，表达力强，但计算成本极高；同时连接太强也降低了对噪声的鲁棒性，模型倾向 “用掉所有信息”，哪怕信息是错的。现在的新语料已大量引入 Agent-style 的交互数据，比如 Tool use、Rank、Search 等，这也反过来提升了模型处理复杂信息结构的能力。

绿洲：那这套 Attention + Memory 的结构理解，在多模态系统中也适用吗？

杨博士: 完全适用，一方面像 MMInference 这个工作证明稀疏注意力机制完全可以用于多模态模型，而 Attention + Memory 架构也可以成为多模态系统的 “通用骨架”。

我们最近有个 NSDI 接收的工作 AVAS 是做 Video-RAG，用户可以直接向一个几小时的视频提问，比如在一个足球比赛的视频中，用户可以直接问 “第三个射门是谁踢的？” 在这个系统中，我们用一个事件图（Event Knowledge Graphs）来处理原始视频信息，并通过大模型在图上进行检索和游走，从而回答用户问题。

更重要的是：如今主流模态之间的 Token 化和对齐已经基本实现，很多模型都已经可以处理视觉模态和声音模态。即使是更前沿的模态，比如 WiFi 感知信号，也能通过表示学习方式与视频模态对齐，这个我们实验室也在做。

当然，要真正做好这件事仍然很有挑战，尤其是在训练数据的质量、多模态对齐细节、长视频的分段编码策略等方面，但是目前并没有看到根本性的技术阻碍。

也正是在这些长上下文、多模态的实际系统里，我们愈发意识到：性能瓶颈往往不在模型本身，而在于背后庞大且不断增长的 KV Cache （中间计算结果缓存）系统。

绿洲：可以展开说说这个背后不断增长的 KV Cache 系统吗？

杨博士: 实际上我们在评估中发现，当上下文长度上升到 100K 甚至 1M 时，TTFT 呈现近似平方级别上升，延时可达数十分钟；GPU Memory 的消耗几乎线性增加。主要不是因为模型大，而是因为 KV Cache 数据太多了。

绿洲：所以你们开始关注 “写” 和 “读” 的调度策略，去优化这个问题?

杨博士: 对，我们在SCBench 这个工作中将常见的稀疏注意力（Sparse Attention）方法从对 KV Cache 的生命周期（比如读和写）的角度进行了分类，特别典型的有两类：

第一类是写时压缩 KV，在写入阶段就选择性丢弃一部分 KV；

第二类是写全，但读时进行选择。先把所有 KV 保留，解码（Decode）阶段执行选择性加载（Selective Load）。

我们的实验发现，“挑着读” 的上限要高于 “挑着写”。写时丢掉的信息无法恢复，而阅读时的选择性加载，可以更智能、更任务相关。所以我们现在的优化策略主要聚焦在两个方向：

第一，让写入与读取结构化、语义感知，减少无意义的全量 KV；

第二，构建 GPU + CPU + RAM 的混合 KV Cache 体系，把低频信息下放到更低成本的内存系统中，实现存储分层。

这就是从 Attention 模块优化，真正走向系统级调度的路径。

（NSA的工作）从技术角度来看，我觉得这是目前最清晰、最稳妥的一种 bBock-wise sparse selection 解法。它也启发我们未来可能更多 Attention 系统中的设计：不要硬选，而是让模型自己学会 “怎么选”。

—— 杨博士

绿洲：我们前面提到了很多优化策略，归根结底，Dynamic sparse attention 的核心目标是：为每个 Token 选择它最该关注的位置。这个查找过程是怎么实现的？存在哪些关键挑战？

杨博士: 核心挑战是高效实现 Top‑K 匹配。

在每个新 Token 被生成时，系统要从已有的 Key 中挑出最相关的几个，传统做法是 Dense softmax，但计算代价太高。主流解法是把 Key 分成 Block（例如每 16 或 32 个 Token 一块），为每块选出一个或多个代表点，Query 只与这些代表点计算 Attention。这个代表点选得好不好，决定了 Sparse attention 的表现上限。

绿洲：那怎么选出 “代表点” 才合适？很多方法效果差就差在这儿对吗？

杨博士: 完全正确。早期常用的策略有均值向量（所有 Key 的平均), 代表 token和极值拼接（用每个维度的最大/最小值构造代表性 token）。

但这些方法的问题是：高维空间中聚类并不线性，均值或极值都无法代表 Token 的真实分布。结果可能是要么稀疏性下降（即为了访问一个 Token，反而多读多个 Block），要么出现信息退化（即代表点无效，模型读到的是 “模糊平均”，反而误导判断）。

绿洲：现在有没有更优的解决方案？

杨博士: 有。DeepSeek 的 NSA（Native Sparse Attention）是一个非常好的解法。

NSA 的核心思路是：别选代表点，要学怎么生成代表向量。它用卷积 + Pooling 的方式，从每个 Block 中抽取信息，并训练出一个生成函数，动态输出 Block 的抽象表达。

这种做法的好处是：

第一，它可以结合 Pretrain 分布，自动学习哪些方向是 “重要的”；

第二，参数化的生成过程可以被 Fine-tune，以适应不同的上下文分布；

第三，相比于直接选 Token，这种 Learnable 方式对高维空间中的表示更具表达力。

这一思想跟我们平常看到的 Q/K/V 映射其实是同构的——都是把原始 Token 表示投射到 Task-specific 空间里，只不过这次目标是 Sparse selection 而不是预测。

NSA 本质上不是在 Token 空间选点，而是把 Block 映射到另一个任务专属的向量空间，在那里选出最有代表性的表达。

绿洲：听起来就像是从 “选中心点” 变成了 “学一个生成机制”。

杨博士: 对，而且 NSA 这个工作的重要贡献还在于，它明确指出：不要直接去学中心点的位置，而要学一个生成机制。这一点跟之前一些工作的做法刚好相反。之前有些工作试图直接学习一些中心点来拟合整个空间的分布，效果反而不好。

为什么？因为高维空间里的 Token 分布并不是线性可分的，也不是易于索引的。NSA 的方式则让模型自己去学习一个适合做 “代表表达” 的低维空间，从而间接提升了 Sparse attention 的效率与效果。

所以从技术角度来看，我觉得这是目前最清晰、最稳妥的一种 Block-wise sparse selection 解法。它也启发我们未来可能更多 Attention 系统中的设计：不要硬选，而是让模型自己学会 “怎么选”。

绿洲：除了代表点的选择，Block 的划分方式是不是也很关键？

杨博士: 非常关键。传统划分是等距的，比如每 16 个 Token 为一块，但这其实是 “位置相邻”，不代表 “语义相关”。更有效的做法来自 Retrieval Attention——引入向量索引（Vector Index）和 KNN 聚类：把 Token 映射为向量后，按语义相似性划分 Block。

这类方式有两大挑战：其一是必须支持动态向量的相关性计算，不能用预计算的排序；

其二是实时性要求极高，Block 索引构建和调用必须够快。

当然了，好处也是明显的：更内聚的语义块、更少冗余读写、更强的缓存命中率，尤其适合检索密集型（Retrieval-heavy）的场景。

绿洲：那除了分组和代表点，Attention 还有哪些结构可以被优化？

杨博士: 有一个关键但被低估的点：模式（Pattern）的存在性。

我们过去习惯把 Sparse attention 看作随机的，但其实 Attention map 在训练中是有结构的。在常见的滑动窗口和块稀疏之外，还找到了一种新的稀疏模式，即竖线-斜线模式（Vertical-Slash Pattern），它包含两部分：

一个是竖线模式：一些 Token（如数字、时间、地名）在多个位置都很重要；

另一个是斜线模式：代表相对位置（Relative position），比如滑动窗口（Sliding window）、句法链。

这些模式不是偶然的，而是训练数据中出现频率高、被重复关注的区域。我们可以用概率建模方式，动态预测高概率访问区，从而减少 Block 个数、提升预取效率。这也启发我们从 “静态分块” 走向 “基于分布的动态分组”，不再按索引机械拆分，而是让数据自己 “聚成块”。

绿洲：这些机制是否只作用于当前的 Q？不同 Q 之间的选择有没有结构可循？

杨博士: 有，而且非常关键。Q 和 Q 之间其实是有结构的，尤其在语言中，相邻 Token 往往在说同一件事，它们应该共用相似的 Attention 区域。而且在 Group Query Attention（GQA）中，Q 还有一个天然的维度，即同一个 Query group 中的 Q 共享相同的 K，这也是目前经常采用的处理方法。

还有一个非常有意思的观察，就是模型的不同部分在训练中会形成内生的差异性和分化，比如：

第一是 Head 分化：不同 “头” 会专门化成不同的功能，有的负责局部上下文，有的负责长程检索（Long-term retrieval），还有的更偏总结。“头” 之间不重叠，但长期稳定；

第二是 Layer 分化：越底层的层次越稠密，处理细粒度语言；越往后越稀疏，表达更高阶语义。

而这些结构分化，其实就是模型在内部 “自组织” 出了一种信息调度逻辑，它不是静态设计出来的，而是在大规模训练过程中自发形成的。

很多人在谈 Agent，是谈模型调度、检索效率；

但我们始终相信，Agent 的价值不止是计算速度，而在于它能不能成为人的“第二操作系统”——尤其是那些本就需要更多辅助的人。

—— 杨博士

绿洲：除了做底层的 Attention 优化与系统架构设计，像我们访谈开头提过一下，你们也在推动这些系统真正服务于特定人群对吧？

杨博士: 是的。我们非常关注 Agent 系统在人本场景下的落地，尤其是那些对技术依赖高、但传统系统难以覆盖的用户。

绿洲：有没有具体的案例可以给我们分享一下？

杨博士: 比如我们正在开展一个针对视觉障碍开发者（Low vision programmers）氛围编程体验的 研究项目。编程本身对视觉障碍者是较友好的工作形态——他们只需要设备，不需要频繁的空间交互。我们正在调研如何优化 Agent 的反馈策略和交互结构，让这类用户也能充分享受到技术发展带来的进步。

我们还在推进另一个项目：个性化认知训练框架 “忆我”Reme，这项创新工具将助力推进认知训练研究，为各类认知障碍，包括轻度认知障碍的早期预防和非药物干预，提供新的方法。

绿洲：所以目标不是技术 “能跑”，而是 “真的有人能用起来”，构建一个能用的 AI？

杨博士: 完全是这样。我们更倾向于用 “智能体原生系统” 这个概念来定义我们的整体技术方向：它既包含了结构性优化（如调度、计算、存储分层），也关注谁在用、怎么用、是否用得上。

我们希望这套系统既能在推理效率、计算成本、资源分层等方面做深度优化，也能成为开发者真正愿意使用、弱势群体也能获得支持的平台。就像我们最近设计的优化中间件：目标就是把 Agent developer 和 System optimizer 解耦，让不懂底层的开发者也能 “点两个按钮” 就获得更适配的优化方案。

很多人在谈 Agent，是谈模型调度、检索效率；但我们始终相信，Agent 的价值不止是计算速度，而在于它能不能成为人的 “第二操作系统”——尤其是那些本就需要更多辅助的人。