微软研究院杨玉庆:Agent 的注意力系统|Attention

绿洲资本·2025年09月05日 11:41
参赞生命力

长上下文理解能力,是大模型走向复杂任务和系统调度的关键路径。

而在解决 Prefill 阶段的计算瓶颈这件事上,TriangleMix 是目前少有能兼顾性能与精度的底层结构性优化方法。

这个方法由微软研究院首席研发经理,杨玉庆博士等人在论文《TriangleMix: A Lossless and Efficient Attention Pattern for Long-Context Prefilling》中提出 :一种可免训练(Training-free)、适用于超长输入的 Attention 模式组合。该方法通过浅层致密、深层三角稀疏的结构设计,在维持模型输出质量的同时,显著降低了预填阶段的延迟。

TriangleMix 是 Attention 的结构性分层方案,可在 32K–128K 长度下将首 Token 延迟(Time to First Token,下文简称 TTFT) 降低 12%–32%,Attention 核延迟提升 3.7×–15.3×;

其背后逻辑是:通过梯度敏感性分析裁剪掉无用的 Middle Q-K 区块,仅保留 Streaming 与末尾聚合区域;

这项优化是免训练的,且可与动态稀疏(如 MInference、FlexPrefill)叠加,在不改变架构前提下实现端到端降本增效;

对于杨博士的团队而言,TriangleMix 并不是一个独立的工作,而是对注意力机制、信息组织方式、Context 编排逻辑乃至关于智能体原生系统思考中的一部分。

但,TriangleMix 背后对 Attention 的理解究竟发生了哪些改变?它为什么能 “几乎无损” 地删掉一大块计算?这一方法又能否延展到 Memory、Retrieval 和更大的智能体系统架构中?正是基于这些疑问,我们和杨博士展开了一场深度对谈。

在正式进入对谈内容之前,先快速了解一下 TriangleMix 的技术动机与核心结构。

在处理长上下文任务时,大模型的 Attention 通常面临预填充阶段(Prefill)计算量激增的问题,其复杂度随输入长度呈 O(N²) 增长。尤其在 32K–128K 的输入规模下,这会带来显著的显存压力和 TTFT,成为实际部署中,阻碍性能提升的主要瓶颈。

TriangleMix 针对这一问题提出了一种分层稀疏的 Attention 架构:通过分析各层 Attention 对最终输出的梯度敏感性,作者发现模型在深层中对 Middle Q-K 区域的依赖极低。因此,他们在浅层保留标准 Dense attention,而在深层切换为 Triangle-shaped mask —— 跳过中间部分,仅保留前段(Streaming 区)与末端(Last Q-K 区),因此显著降低了深层 Attention 的计算成本,使复杂度从 O(N²) 降至 O(N)。

在实际应用中,TriangleMix 采取了层级 Attention 切分策略:前 16 层采用标准 Full attention,后 16 层切换为 Triangle attention,仅激活 Attention matrix 的下三角区域(即每个 Q 只能 Attend 于其前方的 K)。

这一结构支持与现有的动态稀疏方法(如 MInference、FlexPrefill)的组合使用,构建 Hybrid 模式;同时也是免训练的结构优化方法,可直接部署在 Llama-3.1、Qwen2.5 等主流大模型上,无需重新训练。

论文实验证明,在 Llama‑3.1‑8B‑Instruct 和 Llama‑3‑8B‑262K 上,将 Triangle attention 应用于后 62.5% 的层(即 L_tri_start = 12)时,模型仍保留了 99.7% 的原始性能。

这意味着:TriangleMix 能够在大部分深层中使用 O(N) 的注意力结构,而不显著损失表达能力,从而实现显著的推理加速。

论文的实测的结果也显示出,TriangleMix 能在精度几乎无损的情况下,显著降低 Latency 与 Memory 消耗。

实测结果展示 

在 Llama‑3.1‑8B‑Instruct 模型中,Triangle attention 将每层内核延迟 (Kernel latency) 从 750m(128K Context)压缩至 49ms,加速比例达到 15.3×,TTFT 下降 12%–32%。  

在 RULER(Revisiting Long Context Benchmark) 和 LongBench 等多个基准测试任务(Benchmark Tasks)上,TriangleMix 与 Dense attention 几乎保持相同的准确率表现,验证了其 “免训练 + 几乎无损” 的结构优势。

我们梳理了与杨博士的深度访谈,围绕论文背后的研究洞察,以及 TriangleMix 所连接的整个系统演化路径展开,覆盖了从结构设计到部署效率等话题的探讨。

本文为整理后的访谈内容,阅读时间约 15 分钟。

Enjoy

“所以我认为,与其单独谈 Attention,我们更应该从一个更高的视角来看待它——把它放在智能体系统、训练机制、Context 表达、任务结构这些更大的议题之中。

—— 杨博士

绿洲: 杨博士好,您供职于微软研究院、 一个学界与产业界结合的地方。可以为我们介绍一下,从产业界和学界交互的视角,如何看待和思考 TriangleMix 这个研究?

杨博士: 先介绍一下目前整体的工作方向和研究框架。

我们(微软亚洲研究院上海机器学习系统团队)主要针对大模型和智能体系统开展系统和算法的协同创新研究,工作主要集中在两大块,分别是:

第一部分,针对大模型,尤其是长上下文场景,的高效计算。特别侧重在稀疏注意力(Sparse Attention)机制的研究和加速。

在这方面,除了我们今天讨论的 TriangleMix,团队的主要成果还包括:

MInference(NeruIPS 24)和MMInference(ICML 25)将稀疏计算引入 Attention 中,主要是在 Prefilling 阶段降低运算量和延迟(Time-to-First-Token,TTFT);

Retrieval Attention和后续工作RetroInfer将 Vector Index 的检索技术引入 Attention 的计算和 KV Cache 组织,实现低 GPU 内存的大推理吞吐;

SCBench(ICLR 25)在 KV Cache Sharing 的视角下对多种稀疏化方法进行了系统性的分类和性能比对;

LeanK(EMNLP 25)在探讨现在主流的位置编码技术,对 KV Cache 频域分布(Dimension 维度)的影响,并通过减低频域上的冗余来降低对存储和计算的需求;

另一部分,我们称为 “智能体原生的系统”(Agent-Native Systems),是针对智能体系统的开发、优化和高效部署进行系统性的研究。这部分工作是将智能体(Agent)视作系统研究的一等公民,而不是只关注其中的模型部分。

因为我们很早就意识到:当系统的服务对象是 Agent,而不是单次调用的大模型时,智能体原生的系统具有更广阔的性能提升和效率优化的空间,从而能够使得智能体不仅更加高效、低成本,还能进一步提升其工作质量,更好的解决问题和创造真实价值。

以我们 2024 年提出的 Parrot(OSDI 24)系统为例,它的出发点是 “智能体系统” 中,计算图能够为推理系统带来额外的优化空间。传统的大模型推理系统主要面向的是 “单次请求” 的优化,但现实中没有哪个 Agent 是靠单次调用就可以完成任务的。只考虑单次调用的系统在智能体层面上其性能通常不是最优的。

绿洲:请展开说说 Agent 无法靠单次调用完成任务这个点。

杨博士: Agent 本质上是一组包含多次模型调用的软件程序,这些调用之间存在特定的依赖关系(比如前一次模型的输出会成为后一次模型的输入),还涉及工具使用或数据库查询等。这就要求系统层的优化必须考虑 “整个任务链条”,而不是单次推理。

在实际部署中,我们观察到两个值得注意的点:

第一,如果你从 Agent 全局视角进行系统级优化,基本上都能获得额外的性能提升,我们在一些场景下甚至看到了相对于传统方法 10 倍以上的提升。这是因为优化目标变了——不是 “让一个请求跑得快”,而是 “让一整组任务更协同”。

第二,还有一个很有意思的变化是:大模型流量越来越多不是由人发起的,而是由程序自己调用自己发起的。这些程序化的调用链,其实更像是一个新的系统,而不是传统意义上的 “用户输入 + 模型输出”。

绿洲:这种变化也会影响训练服务的架构设计?

杨博士: 是的,我们还启动了一个叫 AgentLightning 的新项目专注于智能体训练与优化。在这里,我们探讨的问题是:面对种类繁多形态各异的 Agent 实现,该如何构建标准化的训练服务(Training Service)。而且关键是,这个服务必须是非侵入式的,现在很多优化方法默认你要用某种框架,但很多真实项目根本没有统一框架,有些开发者反而觉得框架本身就是负担。

所以我们在做一个 “Agent 优化中间件”,它给基础模型的能力提升带来了新的可能性。Agent Lightning 提供的统一的数据接口,让不断产生的、具有实际意义的智能体交互数据以标准化的方式流入基础模型,从而进一步提升基础模型的能力;

另一方面,它也描绘了一幅未来 AI 应用开发的蓝图。通过将模型优化能力以服务的形式无缝赋能给所有智能体,Agent Lightning 显著降低了高性能自适应智能体开发、迭代和部署的门槛。

我们也关注免训练(Training-Free)的优化方式,比如提示词优化和上下文优化。

绿洲:那么 Context 的结构表达,是不是也成为一个关键问题?

杨博士: 是的。现在的智能体应用中,开发者往往需要将不同的数据对象放到上下文当中去,比如表格,文件,代码仓库等等。

但是这些不同的对象到模型可以处理的 Token 之间是需要进行转换(Rendering)的。由于模型训练中的数据分布的差异,这些具体的转换要求往往是因模型而异的,不恰当的转换很容易影响最终的性能。

比如一张表格,你是把它当文本展开、还是当结构化 Token 编码,结果是完全不同的。而这些决策,不该由 Agent 开发者来做,就像前端工程师也不用亲手管理 DOM 树。

所以我们做了一个叫 POML 的框架,有点像网页开发的 HTML 语言和前端框架,使得开发者只需要声明这是什么对象类型,系统就会自动把它转成底层结构,再映射到合适的 Token 表达上。这个工作不仅是一种开发者的便利工具,它还给我们提供了很多关于上下文的洞察,比如我们应该以何种粒度来理解、管理和优化模型的上下文。

这些洞察为我们 Attention + Context 架构的带来了很多有意思的思考。

绿洲:所以你们现在的工作重心,已经从单点模块优化,转向了整个系统逻辑的构建?

杨博士: 完全是这样。我们团队目前主攻 “智能体原生系统”,包括:

Agent 优化中间件:解耦 Agent Developer 与系统层,支持 Model training、Prompt 和 Context 优化等不同策略的调度。

多模态结构融合:比如,Video RAG、Memory 组件,我们将语义 Memory 与 Knowledge graph 融合,服务不同任务需求。

人群敏感系统设计:包括视觉障碍者的代码交互优化、认知障碍者日常训练的 Agent等,用 Agent 帮助特殊人群。

底层优化手段仍是 Attention + Memory + Retrieval,但我们现在更关注怎么把这些变成一个面向服务、可部署、可解释的系统方案。

因为我们的工作本身是系统视角的,所以我们不认为 Attention 是一个单一的模块。我认为,与其单独谈 Attention,我们更应该从一个更高的视角来看待它——把它放在智能体系统、训练机制、上下文表达、任务结构这些更大的议题之中。

TriangleMix 只是其中的一种形式创新。

但如果我们把目光放大,会发现注意力机制正在成为整个 AI 系统中最具策略性的控制中心——它不仅决定 “看哪里”,也决定 “从哪里调取信息”、“保留哪些部分”、“基于什么粒度和视角来匹配”,本质上它已经超出了 NLP 模块的定义,而成为 AI agent 系统的一种结构性底座。

—— 杨博士

绿洲:我们怎样去理解要把 Attention 放在更大的议题之中?TriangleMix 又是如何帮助这一目标的实现?

杨博士: 我们知道,大模型是一种可控生成模型,它的输出是输入所决定的。我们可以借鉴计算机系统中的 Memory Hierarchy ,通过一个注意力层级来理解这个从输入到输出的过程:

底层是我们称作 “无限知识池” 的部分,像互联网数据、数据库、文档、表格等,它可以是开放领域的知识也可以是特定领域的知识比如医疗手册、法律条文等;

中层是模型的输入在不同的语境下,也经常被叫做提示词(Prompt)、上下文(Context),模型记忆(Memory)等;

顶层是模型处理后的内部状态空间及其并生成的输出;

而在这三层之间:

底层 → 中层的上下文编排主要是由用户(开发者),检索器(Retriever),记忆模块等来完成,除了人工干预,这一步操作非常依赖基于检索操作,这是很多系统,比如常见的检索增强生成(RAG)或者智能体记忆系统的关键底层部件;

中层 → 顶层主要靠模型内部的计算来完成,Token 之间的相互关系的确定主要依赖于 Attention。

从这个视角来看,Attention 不是一个独立的模块,它是大模型的完整信息筛选机制的一部分,用一个通俗的比方来说,这套机制就像是信息的调度器:决定看哪、读哪、保留哪一部分信息。

从这个视角出发,我们其实可以重新定义:什么场景下该用哪一类 Attention?关键点就在于效率(Efficiency)和效能(Effectiveness)之间的 Trade-off。

绿洲:所以我们其实面对的是一个 “信息检索” 的问题?

杨博士: 是的,至少我们可以从这一个角度来理解这个问题。而且这个检索机制有两种路径可以走:Retrieval (由于基于 Embedding 的向量检索的广泛使用,我们在讨论中有时也会用 Embedding 来指代所有的 Retrieval 技术,尽管这样有时并不完全严谨)和 Attention。

如果是简单的问题,比如 Fact retrieval,问题(谜面)和答案(谜底)能简单一一对应,用 Embedding 检索是最高效的,像稀疏检索(比如基于 TF-IDF 的各种技术) 或向量匹配都能完成的很好。

但如果问题更复杂,需要多步推理或组合多个知识块,仅靠 Embedding 就不够了,这时候 Attention  就更有优势。

从数学上看,Attention 是一种 Token 级别的内积检索:Query 去匹配 Key,再用 Softmax 分配权重,从 Value 中提取相关信息。你可以把它看成一个 “可微分的搜索引擎”,每个 Token 都在进行查询增强(Query Enrichment)。

绿洲:Attention 可以构成一种更有优势的检索机制?

杨博士: 对,我们可以从三个角度来看:

第一是粒度(Granularity):Embedding 通常以 Chunk 或 Document 为单位,Attention 是以 Token 为单位,可以做更细的推理;

第二是维度(Dimension):Embedding 通常几十到几百维,Attention 用的是多头机制(Multi-head),每个 “头” 对应的高维隐藏状态(Hidden State)加起来是千维级别起步,多视角表达更丰富;

第三是能力(Capacity):Embedding model 通常训练弱、泛化差,而 Transformer 模型通过 Attention 机制激活已学知识路径,表达力和推理力都更强。

还有更重要的一点,Attention 不是一步完成的,而是它能构建一条推理路径(Reasoning path),从问题出发,一步步连接中间信息点,拼出完整的答案。这就像是一个连续的检索增强(Query enrichment),通过不停的变换 Query 的内容,完成最终的信息生成。

绿洲:类似于一种信息调度系统。

杨博士: 没错。为了更好的实现用户意图和已有信息之间的匹配,现代的搜索引擎中 都会采用检索增强和改写的技术,这是靠一种 “显式增强”。而 LLM 里的内部计算,其实做的是 “自组织增强”:每个 Token 生成前都发起一次 Query,动态去匹配上下文中的 Key,找到对应的值。Attention 做的,是在模型内部实现一种检索增强。

我们的一系列 Attention 相关的工作,都可以理解为对大模型内部的信息检索机制的性能和效率的改进,比如对于计算的稀疏化(MInference 和 MMInference ),对于KV Cache 的再组织和稀疏化(Retrieval Attention 和后续工作 RetroInfer )等。

TriangleMix 本身就是这一系列工作中比较新且有意思的延伸:它在结构上引入 Streaming 区、Middle Q-K 区、Last Q-K 区,然后基于 Gradient 分布判断哪些区域值得保留,哪些可以裁剪。Attention 不再是密集矩阵,而是任务驱动的信息选择系统。

而且 TriangleMix 只是其中的一种形式创新,但如果我们把目光放大,会发现注意力机制正在成为整个 AI 系统中最具策略性的控制中心。它不仅决定 “看哪里”,也决定 “从哪里调取信息”、“保留哪些部分”、“基于什么粒度和视角来匹配”,本质上,它已经超出了 NLP 模块的定义,而成为 AI Agent 系统的一种结构性底座。

绿洲:您刚刚提到的 “注意力层级” 结构中,最底层的 “Infinite Knowledge” 是全局记忆 (Global memory) 吗?很多论文还会提到 Global/Local/Context,这些概念怎么对应?

杨博士: 这些术语本质上是储存层级 (Memory Hierarchy) 的类比,不是严格定义。

最底层(Infinite pool)可以理解为全局知识 (Global knowledge),包括全网内容、离线数据等。而中间层(Context)包括 Memory、Retrieval、Prompt 等用于 “准备输入” 的结构;最上层(Working Memory)则是模型当前处理 Token 的空间。

在这里我们关注的其实是两个属性:

一个是局部性(Locality):大部分任务并不需要全局知识,而是聚焦于上下文中的某个子块;

另一个是动态性(Dynamicity):每个任务所需的信息块都是动态变化的。

因为 Attention 的优化空间就来自这两个维度。

要真正做好这件事仍然很有挑战,尤其是在训练数据的质量、多模态对齐细节、长视频的分段编码策略等方面,但从架构层面看,它没有什么根本性的技术阻碍。

也正是在这些长上下文、多模态的实际系统里,我们愈发意识到:性能瓶颈往往不在模型本身,而在于背后庞大且不断增长的 K/V Cache 系统。

—— 杨博士

绿洲:所以其实你们现在的研究已经不局限在 Attention 层,进一步延伸到了 Memory 层是吗?

杨博士: 没错。我们很早就做过一些类似 Graph RAG 的尝试和商业应用,虽然没有正式发论文,但已经在项目中用起来了。对我们来说,这一层是智能体系统里非常自然、也必须深入的一个工作层面。

绿洲:但相较于 Attention 层的新结构百花齐放,Memory 层的研究是不是还缺乏真正的技术突破?

杨博士: 其实不是的。这一层现在反而是非常热的研究领域。也出现了很多开源或者闭源的Agent Memory实现,这些都属于底层记忆架构的创新尝试。

只是从技术上来看,很多方法和理念都来源于搜索引擎和知识图谱时代的技术,只是执行手段完全不同了。

举个例子,过去我们会按规则或主题切片对话内容,现在则由大模型自动完成这些任务;实体抽取也从早期的正则和 BERT,进化到了采用不同规模的语言模型 SLM 级别的生成式抽取,既可以提升性能也可以控成本。

这其中也引出了一个核心权衡:计算 vs 精度。Standard attention 是 Token 粒度的全连接,表达力强,但计算成本极高;同时连接太强也降低了对噪声的鲁棒性,模型倾向 “用掉所有信息”,哪怕信息是错的。现在的新语料已大量引入 Agent-style 的交互数据,比如 Tool use、Rank、Search 等,这也反过来提升了模型处理复杂信息结构的能力。

绿洲:那这套 Attention + Memory 的结构理解,在多模态系统中也适用吗?

杨博士: 完全适用, 一方面像 MMInference 这个工作证明稀疏注意力机制完全可以用于多模态模型,而  Attention + Memory 架构也可以成为多模态系统的 “通用骨架”。 

我们最近有个 NSDI 接收的工作 AVAS 是做 Video-RAG,用户可以直接向一个几小时的视频提问,比如在一个足球比赛的视频中,用户可以直接问 “第三个射门是谁踢的?” 在这个系统中,我们用一个事件图(Event Knowledge Graphs)来处理原始视频信息,并通过大模型在图上进行检索和游走,从而回答用户问题。 

更重要的是:如今主流模态之间的 Token 化和对齐已经基本实现,很多模型都已经可以处理视觉模态和声音模态。即使是更前沿的模态,比如 WiFi 感知信号,也能通过表示学习方式与视频模态对齐,这个我们实验室也在做。

当然,要真正做好这件事仍然很有挑战,尤其是在训练数据的质量、多模态对齐细节、长视频的分段编码策略等方面,但是目前并没有看到根本性的技术阻碍。

也正是在这些长上下文、多模态的实际系统里,我们愈发意识到:性能瓶颈往往不在模型本身,而在于背后庞大且不断增长的 KV Cache (中间计算结果缓存)系统。

绿洲:可以展开说说这个背后不断增长的 KV Cache 系统吗?

杨博士: 实际上我们在评估中发现,当上下文长度上升到 100K 甚至 1M 时,TTFT 呈现近似平方级别上升,延时可达数十分钟;GPU Memory 的消耗几乎线性增加。主要不是因为模型大,而是因为 KV Cache 数据太多了。

绿洲:所以你们开始关注 “写” 和 “读” 的调度策略,去优化这个问题?

杨博士: 对,我们在SCBench 这个工作中将常见的稀疏注意力(Sparse Attention)方法从对 KV Cache 的生命周期(比如读和写)的角度进行了分类,特别典型的有两类:

第一类是写时压缩 KV,在写入阶段就选择性丢弃一部分 KV;

第二类是写全,但读时进行选择。先把所有 KV 保留,解码(Decode)阶段执行选择性加载(Selective Load)。

我们的实验发现,“挑着读” 的上限要高于 “挑着写”。写时丢掉的信息无法恢复,而阅读时的选择性加载,可以更智能、更任务相关。所以我们现在的优化策略主要聚焦在两个方向:

第一,让写入与读取结构化、语义感知,减少无意义的全量 KV;

第二,构建 GPU + CPU + RAM 的混合 KV Cache 体系,把低频信息下放到更低成本的内存系统中,实现存储分层。

这就是从 Attention 模块优化,真正走向系统级调度的路径。

(NSA的工作)从技术角度来看,我觉得这是目前最清晰、最稳妥的一种 bBock-wise sparse selection 解法。它也启发我们未来可能更多 Attention 系统中的设计:不要硬选,而是让模型自己学会 “怎么选”。

—— 杨博士

绿洲:我们前面提到了很多优化策略,归根结底,Dynamic sparse attention 的核心目标是:为每个 Token 选择它最该关注的位置。这个查找过程是怎么实现的?存在哪些关键挑战?

杨博士: 核心挑战是高效实现 Top‑K 匹配。

在每个新 Token 被生成时,系统要从已有的 Key 中挑出最相关的几个,传统做法是 Dense softmax,但计算代价太高。主流解法是把 Key 分成 Block(例如每 16 或 32 个 Token 一块),为每块选出一个或多个代表点,Query 只与这些代表点计算 Attention。这个代表点选得好不好,决定了 Sparse attention 的表现上限。

绿洲:那怎么选出 “代表点” 才合适?很多方法效果差就差在这儿对吗?

杨博士: 完全正确。早期常用的策略有均值向量(所有 Key 的平均), 代表 token和极值拼接(用每个维度的最大/最小值构造代表性 token)。

但这些方法的问题是:高维空间中聚类并不线性,均值或极值都无法代表 Token 的真实分布。结果可能是要么稀疏性下降(即为了访问一个 Token,反而多读多个 Block),要么出现信息退化(即代表点无效,模型读到的是 “模糊平均”,反而误导判断)。

绿洲:现在有没有更优的解决方案?

杨博士: 有。DeepSeek 的 NSA(Native Sparse Attention)是一个非常好的解法。

NSA 的核心思路是:别选代表点,要学怎么生成代表向量。它用卷积 + Pooling 的方式,从每个 Block 中抽取信息,并训练出一个生成函数,动态输出 Block 的抽象表达。

这种做法的好处是:

第一,它可以结合 Pretrain 分布,自动学习哪些方向是 “重要的”;

第二,参数化的生成过程可以被 Fine-tune,以适应不同的上下文分布;

第三,相比于直接选 Token,这种 Learnable 方式对高维空间中的表示更具表达力。

这一思想跟我们平常看到的 Q/K/V 映射其实是同构的——都是把原始 Token 表示投射到 Task-specific 空间里,只不过这次目标是 Sparse selection 而不是预测。

NSA 本质上不是在 Token 空间选点,而是把 Block 映射到另一个任务专属的向量空间,在那里选出最有代表性的表达。

绿洲:听起来就像是从 “选中心点” 变成了 “学一个生成机制”。

杨博士: 对,而且 NSA 这个工作的重要贡献还在于,它明确指出:不要直接去学中心点的位置,而要学一个生成机制。这一点跟之前一些工作的做法刚好相反。之前有些工作试图直接学习一些中心点来拟合整个空间的分布,效果反而不好。

为什么?因为高维空间里的 Token 分布并不是线性可分的,也不是易于索引的。NSA 的方式则让模型自己去学习一个适合做 “代表表达” 的低维空间,从而间接提升了 Sparse attention 的效率与效果。

所以从技术角度来看,我觉得这是目前最清晰、最稳妥的一种 Block-wise sparse selection 解法。它也启发我们未来可能更多 Attention 系统中的设计:不要硬选,而是让模型自己学会 “怎么选”。

绿洲:除了代表点的选择,Block 的划分方式是不是也很关键?

杨博士: 非常关键。传统划分是等距的,比如每 16 个 Token 为一块,但这其实是 “位置相邻”,不代表 “语义相关”。更有效的做法来自 Retrieval Attention——引入 向量索引(Vector Index) 和 KNN 聚类:把 Token 映射为向量后,按语义相似性划分 Block。

这类方式有两大挑战:其一是必须支持动态向量的相关性计算,不能用预计算的排序;

其二是实时性要求极高,Block 索引构建和调用必须够快。

当然了,好处也是明显的:更内聚的语义块、更少冗余读写、更强的缓存命中率,尤其适合检索密集型(Retrieval-heavy)的场景。

绿洲:那除了分组和代表点,Attention 还有哪些结构可以被优化?

杨博士: 有一个关键但被低估的点:模式(Pattern)的存在性。

我们过去习惯把 Sparse attention 看作随机的,但其实 Attention map 在训练中是有结构的。在常见的滑动窗口和块稀疏之外,还找到了一种新的稀疏模式,即竖线-斜线模式(Vertical-Slash Pattern),它包含两部分:

一个是竖线模式:一些 Token(如数字、时间、地名)在多个位置都很重要;

另一个是斜线模式:代表相对位置(Relative position),比如滑动窗口(Sliding window)、句法链。

这些模式不是偶然的,而是训练数据中出现频率高、被重复关注的区域。我们可以用概率建模方式,动态预测高概率访问区,从而减少 Block 个数、提升预取效率。这也启发我们从 “静态分块” 走向 “基于分布的动态分组”,不再按索引机械拆分,而是让数据自己 “聚成块”。

绿洲:这些机制是否只作用于当前的 Q?不同 Q 之间的选择有没有结构可循?

杨博士: 有,而且非常关键。Q 和 Q 之间其实是有结构的,尤其在语言中,相邻 Token 往往在说同一件事,它们应该共用相似的 Attention 区域。而且在 Group Query Attention(GQA)中,Q 还有一个天然的维度,即同一个 Query group 中的 Q 共享相同的 K,这也是目前经常采用的处理方法。

还有一个非常有意思的观察,就是模型的不同部分在训练中会形成内生的差异性和分化,比如:

第一是 Head 分化:不同 “头” 会专门化成不同的功能,有的负责局部上下文,有的负责长程检索(Long-term retrieval),还有的更偏总结。“头” 之间不重叠,但长期稳定;

第二是 Layer 分化:越底层的层次越稠密,处理细粒度语言;越往后越稀疏,表达更高阶语义。

而这些结构分化,其实就是模型在内部 “自组织” 出了一种信息调度逻辑,它不是静态设计出来的,而是在大规模训练过程中自发形成的。

很多人在谈 Agent,是谈模型调度、检索效率;

但我们始终相信,Agent 的价值不止是计算速度,而在于它能不能成为人的“第二操作系统”——尤其是那些本就需要更多辅助的人。

—— 杨博士

绿洲:除了做底层的 Attention 优化与系统架构设计,像我们访谈开头提过一下,你们也在推动这些系统真正服务于特定人群对吧?

杨博士: 是的。我们非常关注 Agent 系统在人本场景下的落地,尤其是那些对技术依赖高、但传统系统难以覆盖的用户。

绿洲:有没有具体的案例可以给我们分享一下?

杨博士: 比如我们正在开展一个针对视觉障碍开发者(Low vision programmers) 氛围编程体验的 研究项目。编程本身对视觉障碍者是较友好的工作形态——他们只需要设备,不需要频繁的空间交互。我们正在调研如何优化  Agent 的反馈策略和交互结构,让这类用户也能充分享受到技术发展带来的进步。

我们还在推进另一个项目:个性化认知训练框架 “忆我”Reme,这项创新工具将助力推进认知训练研究,为各类认知障碍,包括轻度认知障碍的早期预防和非药物干预,提供新的方法。

绿洲:所以目标不是技术 “能跑”,而是 “真的有人能用起来”,构建一个能用的 AI?

杨博士: 完全是这样。我们更倾向于用 “智能体原生系统” 这个概念来定义我们的整体技术方向:它既包含了结构性优化(如调度、计算、存储分层),也关注谁在用、怎么用、是否用得上。

我们希望这套系统既能在推理效率、计算成本、资源分层等方面做深度优化,也能成为开发者真正愿意使用、弱势群体也能获得支持的平台。就像我们最近设计的优化中间件:目标就是把 Agent developer 和 System optimizer 解耦,让不懂底层的开发者也能 “点两个按钮” 就获得更适配的优化方案。

很多人在谈 Agent,是谈模型调度、检索效率;但我们始终相信,Agent 的价值不止是计算速度,而在于它能不能成为人的 “第二操作系统”——尤其是那些本就需要更多辅助的人。

从结构性优化出发,TriangleMix 让我们得以重新凝视注意力机制的底层逻辑:它不是一个模块,而是一套关于信息选择、焦点分配与系统调度的系统方法论。

而正是这种方法论,让 Attention 从模型内部走向系统架构,又进一步延展到 Agent 的行为封装、上下文表达结构、乃至人类注意力本身的认知边界。

技术与系统,系统与人的界限,正在注意力机制这一点上被拉近、重叠、重构。

我们相信,Attention 早已不是模型技术的某一环,而是一场关于人类与 AI 如何共建信息世界的持续讨论。从 TriangleMix 到 Flash Attention,从检索路径到认知结构,从 Token-level 到系统级,从效率问题到哲学边界,Attention 的意义远未穷尽。

参赞生命力。

本文来自微信公众号“緑洲资本 Vitalbridge”,作者:参赞生命力,36氪经授权发布。

+1
7

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业