T-Tech技术回放：端侧智能爆发前夜上下文密度正在重塑AI竞争格局

星连资本·2026年06月18日 17:32

聊聊AI范式转移，付永健谈构建个人上下文大脑

T-Tech技术回放

人工智能正在经历一场无声的范式转移。当行业还在热议大模型的参数规模与基准测试分数时，一个更根本的问题已浮出水面：AI的价值究竟只是停留在生成内容的层面，还是能够真正介入用户的工作流并完成结果交付？

本次 T-Tech技术直播中，万象智维CTO付永健围绕《构建AI时代的个人上下文大脑》这一主题，深入讨论了端侧推理、任务记忆复用、端云协同等底层技术命题，勾勒出Agent时代基础设施演进的几条关键线索。

从Chatbot到Agent：AI价值锚点的迁移

过去两年，市场见证了对话式AI的爆发，但2026年的关键变化在于，能够理解复杂任务、调用软件工具并完成执行的智能体（Agentic AI）正在快速取代单纯的对话式交互。这一转变的直接后果是Token和API调用量的指数级增长，倒逼算力架构从纯云端向端云协同迁移。端侧推理技术快速成熟，模型结构创新和推理加速优化不断推进，正在让百亿级参数模型在移动设备上的流畅运行成为现实。

然而，付永健认为，端侧机会虽大，却不会自然落入现有设备。真正的智能上限取决于一个乘积公式：

智能上限=模型能力×上下文密度×交互实时性×权限可得性

一个再聪明的模型，如果不知道用户过去做过什么、当下在做什么，就无法预判未来需求；如果拿不到设备和应用的关键权限，就无法真正替用户完成事情。

02 现有方案的结构性困境

基于这一判断，付永健系统剖析了当前三类主流方案的深层缺陷：

1、云端Agent面临"权限鸿沟"：每次使用都需重新输入上下文，各种消息、文件、操作记录只能被保留在在本地设备中，连续性极差且伴随数据外泄风险。

2、AI手机与AI电脑：虽然贴近用户，但需优先承担通信、娱乐、续航等通用需求，分配给智能体的资源非常有限；且各厂商生态割裂，数据难以跨设备流动。

3、Agent主机/外接盒子：虽然解决了端侧独立运行问题，但携带不自然、使用链路长、依赖网络。其本质仍是"用户发现需求后主动调用外部工具"，而非AI始终在场。

这些局限共同指向一个行业共性问题：个人上下文系统的缺失，正在成为 Agent 从"可用"走向"好用"的最大卡点。

面对这些局限，万象智维提出了卡片式端侧计算设备的产品构想：Taste。这款产品通过三层架构设计实现大众对端侧计算设备实贴身、安全、实时以及跨设备和生态等核心诉求：

1. 最底层是硬件权限层，负责跨模态、跨设备、跨App的上下文收集；

2. 中间层是本地模型层，对原始信息进行过滤、分类、摘要和结构化索引，将碎片化数据转化为可长期复用的个人记忆；

3. 最上层是任务执行层，实现端云模型协同的任务编排与执行。

03 端侧推理的工程化突破

面对高效推理、高效执行以及高效协同这三个关键性问题，端侧推理需要在计算资源、内存带宽和功耗之间寻找精妙的平衡。付永健分享了四个关键的技术方向。

1. 稀疏激活与异构调度是解决计算资源瓶颈的核心思路。传统大模型推理接近全量激活，这在轻量SoC上会导致功耗和时延迅速失控。更优的路径是动态识别并筛选出对结果贡献接近零的神经元，仅保留关键计算路径，同时根据任务类型将负载动态分配给CPU、GPU或NPU。付永健将此比喻为"让模型像人脑一样有选择性的思考，每次推理的时候，我们不是把所有的神经元都去激活，而是只唤醒当前任务最相关、最必要的那一部分"。

2. 内存分级管理是应对端侧内存瓶颈的另一关键。端侧设备内存速度快但容量有限，外存容量大但速度慢。付永健提到，"1GB的内存成本大概要对应20美元左右"。因此将参数按使用频率做冷热划分，将常用数据驻留内存，不常用数据卸载至外存，通过计算与访存重叠及数据排布重组缩短传输时延，可以在有限内存下运行更大规模的模型。

3. 任务路径复用则是减少高频任务重复推理浪费的有效策略。将任务执行抽象为动作-状态序列，通过最长前缀序列匹配算法实现相近任务的高效复用。更关键的是，已有路径可原子级裂变重组，生成更高阶技能；脱敏后的执行路径可在群体层面聚合共享，实现从个体能力到系统能力的跃迁。同时系统可对已有路径进行拆解、组合和重组，生成更复杂技能，在脱敏前提下进行群体经验聚合，演化系统级共享能力。

4. 端侧智能并非要取代云端，而是需要更精细的分工机制。当前多数AI产品无论任务大小全部交由云端大模型处理，导致Token成本失控、全链路拉长。更优的方案是将决策与执行在模型层面解耦：云端强力推理模型负责全局决策、任务拆分和结果验收，本地轻量模型并行执行具体任务。这种分工需要引入编排树拓扑结构，子节点继承父节点上下文环境，工具权限根据拓扑位置动态计算，既发掘并行机会，又保证执行顺序和权限边界可控。一个代码优化任务的对比显示，生成同等质量文档，精细分工可大幅度降低成本。

从软件Agent到具身智能：端侧的下一站

最后，付永健传递出一个清晰的信号：端侧智能的竞争目前已经进入"深水区"。当行业还在争论模型参数和榜单分数时，真正的技术壁垒正在向三个维度迁移——如何在极度受限的硬件上实现高效推理，如何让Agent从"每次重新学习"走向"持续记忆复用"，以及如何在端云之间建立合理的智力分工。

"个人上下文大脑"概念，本质上是对Agent时代基础设施的一次重新定义：智能的上限不取决于模型本身有多强，而取决于它能获取多深的上下文、多高的实时性和多广的权限覆盖。在这个逻辑下，端侧不是云端的替代品，而是AI真正融入用户工作流的必经之路。当算力从云端向端侧迁移、当Agent从"会说"走向"会做"、当记忆从"每次清零"走向"持续沉淀"，AI与个人的关系也将从工具性的"调用"，转向陪伴性的"理解"。这场关于上下文入口的争夺，或许将比任何单一模型的发布都更能决定未来三到五年个人智能的格局。

本文来自微信公众号“T-ONE创新中心”，作者：讲技术的，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

T-Tech技术回放：端侧智能爆发前夜上下文密度正在重塑AI竞争格局

最近内容

下一篇