从「模型至上」到「体验驱动」，AI Agent下半场比赛怎么打？

线性资本·2025年12月12日 14:26

AI下半场的变革、挑战与未来想象。

AI的竞争已进入“下半场”，这一由OpenAI前研究员姚顺雨率先提出的概念，正在重新定义行业的竞争焦点：AI的下半场，核心将不再是训练一个更聪明的模型，而是决胜于智能体的评估、进化与真实场景的落地能力。

这背后，是一场从“模型至上”到“体验驱动”的深刻转向。技术的突破是基础，但真正的驱动力，是人的需求在进化——从“帮我做事”到“懂我心情”。这场变革不仅催生了新的产品形态，更在重塑人机交互的底层逻辑：交互设计从工程学问题变成了心理学问题，而构建Agent的团队，也从纯工程思维转向了“工程+管理”的复合角色。

我们正在见证AI Agent在成长过程中的一次关键“身份转向”。

它的核心任务，从忠实执行预设指令，转向了在复杂环境中自主理解、决策与进化。这标志着一个新阶段的开始：AI竞争的逻辑已然改变，从打磨模型的“智力”，转向了构建智能体的“能力”与“品格”。前者关注它“知道什么”，后者则考验它如何在真实场景中“持续做得更好”，并最终赢得人类的信任。

这一转变重塑了从技术、产品到商业的完整链条。在技术侧，重心从一次性的预训练，移向了持续性的评估与改进闭环。在产品侧，体验设计的核心命题，从“如何让用户最快完成任务”，变成了“如何让用户愿意与之长期相处”。在商业侧，价值衡量标准则从“降本增效的工具”，拓展为“可承担责任的数字协作者”。

换言之，AI Agent正在进行从“工具”到“协作者”的改变。这不仅需要更精巧的算法，更依赖于对人性需求、社会行为和组织逻辑的深刻洞察。

今天的分享，源于线性资本AGM大会上，线性资本董事总经理郑灿与三位AI应用领域公司创始人的深度对话。Final Round联合创始人兼CEO关明皓、Macron AI创始人兼CEO陈锴杰、TEA.AI创始人尹一峰，向我们分享了基于实践视角，Agent如何跨越从“可用”到“好用”的关键鸿沟，以及背后的技术逻辑与产品哲学。

从“模型”到“体验”的时代，过去一年什么导致了Agent领域的巨大进展？

Michael@Final Round

变化来自几个层面的叠加。首先，更长的上下文窗口（Context window）让我们能把更丰富的内容和场景放进Agent的工作流。其次，各种工具接口变得前所未有的成熟和易用，搭建一个复杂的Agent系统在今天可能只需要一个简单的流程。最后是一些创造性的能力被挖掘出来，比如实时搜索、多智能体互动，这些都让Agent的边界得到迅速扩展。

陈锴杰@Macron AI

我认为本质上是思路的转变。去年到今年最大的变化，是我们从“预训练时代”走向了“以经验驱动的时代”。

过去，我们用Pre-training来训一个模型，是世界知识的提取和模仿，模型的价值就基本固定在那儿了。但现在，大家开始做强化学习（RL），意识到真正的智能提升，必须依赖与环境的持续互动。无论是Context还是MCP，目的都是让模型从互动中获得更多的经验（Experience），用其来提升自己。

Cursor就是一个非常好的例子。用户每按一次Tab键，都是一次与环境和用户的互动，这些数据反过来提升了模型的能力。所以今年的Agent爆发，表面是技术积累，内核是思维转变——从训练一个好模型，变成了构建一个能让模型在优秀产品体验中自我进化的循环。

尹一峰@TEA.AI

我的视角可能不太一样。除了技术上的天翻地覆，我认为人的需求也发生了根本变化。

以前人们更关注“这件事能帮我做什么”，是具体场景。现在，人们对具体事务之外的抽象需求越来越高。“情绪价值”这个词的爆火就是明证。而情绪价值，只能由“人”或“像人的东西”来提供。

Agent在交互中最大的作用，未必是效率最高或反应最快，而是因为它“像人”。某种程度上来说，你拥有五个Agent，就像手下有五个人——这是一种“权力感”。其次，人与人的交流不只是工具性的，Agent既可以替你办事，也可以提供情绪。这是市场需求倒逼Agentic Al爆发的原因。满足情感需求，目前只有大模型和Agent能做到，传统算法不行，因此会倒逼企业在这方面进行创新。

ToC场景中，Agent带来的最大体验改变是什么？

尹一峰@TEA.AI

是从“完成一件事”到“与一个人真正交流”的转变。过去的人机交互（HCI ）原则是让你用最快时间完成任务。现在不是了，HCI不只是“人机交互”，也成了“人与人交互”，因为Agent像人。

现在的HCI设计，很多内容不再是工程学问题，而是心理学问题——你需要让Agent真的与人建立连接，建立一种信任感。目前几乎没有公司能做到，而这恰恰是真正的用户粘性所在。

你可能会因为一把更好的锤子而扔掉旧的，这是工具属性。但是想象一下，你有一条养了10年的狗，会因为突然来了一条更名贵的狗，就把之前那条狗换掉吗？这是不可能的。这就是情感羁绊。如果能达到这个标准，那就是时代级的体验差：从“用一个纯粹工具完成目的”到“拥有一个能帮忙的朋友”。我们正在探索这条路。

所有Agent公司都要训模型，是真命题还是伪命题？

陈锴杰@Macron AI

之前我的Cofounder在线性技术π活动上这么说过，那我肯定支持这句话，但需要加个解释——不是说所有公司，而是一个好的Agent产品公司，最终都会走上模型训练这条路。这里说的“训练”，主要指后训练，而非预训练。

以Thinking Machines Lab为例，Mira从OpenAI出来创业，完全有能力做一支预训练团队，但他们跳过了这步骤，只做后训练。包括他们最近发的产品Tinker，一个更便宜、用更少卡、能做RL后训练的工具，也是在做后训练的部分。

为什么必须要做？因为我们现在身处“经验智能时代（Era of Experience）”。硅谷现在的最大共识，是无论产品公司还是模型公司，都要把强化学习规模化地放进产品，让产品和用户一起迭代。这就像启动新一代推荐系统。模型以前是冻结的，不会升级。现在我们需要思考如何让它后面99%的参数也“动起来”，通过在线强化学习或策略适应，而不仅仅是上下文的适应，我们就有可能让用户在使用产品时觉得用得越来越好。

未来的Benchmark会改变，不再是模型回答对多少题，而是在与用户互动中，能力提升的斜率有多大。如果一个产品构建的反馈环境足够好，它完全可能在3到6个月内超越其他所有，让指标达到最高。这就是为什么产品公司必须接触模型训练、构建自己的环境，否则在AI管线日益复杂的未来，将没有竞争力。

Agent一旦完成不了任务就显得“不可靠”，在实践中如何解决可靠性问题？

Michael@Final Round

我们内部做了一个很直接的解决工具：录屏软件。学习一件事最简单的方式，就是看真人怎么做，这某种程度上也是沿用了RL的概念。我们会录制想要复刻的关键工作流程，反复回溯，找出那些“人能做到但机器做不到”的细节，不断尝试突破限制。

陈锴杰@Macron AI

Agent做不出东西其实非常正常。现在有很多的通用Agent，它们的边界是由用户行为和技术共同定义的，而且正在快速扩张。用户自己一开始也是没有概念的，也搞不清边界在哪，所以总会提出“离谱”的需求，比如“用我的小程序做个黑神话悟空的第二部看看”，这显然做不到。当然，也会存在看似合理但受限于工具的需求。

我目前想到的拓展边界可能有三种方式：一是人工做工具接入；二是像浏览器这类自动拓展；第三种，也是我认为代表未来的方式，是Agent自己发现失败案例，加入RL训练集，进行下一代训练。这其中的难点在于如何智能地识别和筛选案例。我们自动改进的管线已经在前两种人工的监督下运行，但理想状态是产品放在那里，用户用它，它就能自动变好。

尹一峰@TEA.AI

我们有个很好的参照物：RLVR（Reinforcement learning with verifiable reward，可验证奖励的强化学习）。如果能把Agent工作流拆解成每一步都能极快验证，你就能迅速定位错误。但问题在于，绝大多数用户指令非常模糊，无法被拆解成可以快速被验证的东西。

不过，用户行为会给出线索。比如用户收到答复后几秒钟的“一脸懵逼”状态，或直接说“我不喜欢”。我们需要在与用户交互的各种细微处，判断给出的内容好不好。因为所有大模型本质都是某种监督学习，你需要“解码”用户的反应。

另一个问题是，如果用训练模型的方式改进，效率虽高，但用户当前的这次失败交互体验很差。因此，至少需要有“上下文内反思（In-context）”的方法去做实时改进，在训练模型之前，就给用户一个更好的实时反馈。这个反思的过程，本身也在为后续的训练产生优质数据。

构建一个Agent应用团队，在人员思维和协作上有什么根本不同？

尹一峰@TEA.AI

最大的思维区别是，Agent设计不单是工程学问题，还是个管理学问题。因为Agent的核心特征就是“像人”，而Agent系统讲究团队协作。你需要考虑在什么位置放什么样的“人”，设计整个组织的拓扑结构（Topology）。

你需要训练不同性格的Agent。同样的问题，给不同性格的Agent，结果应该不同。我们希望什么样性格的“人”在这个岗位上，这是设计时要考虑的。我们的时间分配可能是60%在工程上，40%在讨论“我们到底想要一个什么样的‘人’在这个APP里”。

现在的四大模型，GPT、Claude、Gemini、Grok，各有鲜明“性格”，你可以把它们看作可无限复制的AI员工。你需要决定这四种“人”分别出现在哪里。这个时代，哪怕是工程师，也需要一点与人打交道的经验，得知道什么样的人适合做什么工作，再去选一个跟这样的人最接近的Agent去做事情，而且在提示工程（Prompt Engineering）中你也要能持续产生反馈。因此，这个时代对于工程师的角色要求变得非常高。

陈锴杰@Macron AI

在团队内部协作上，也完全不同。它需要技术与产品进行前所未有的深度配合。以Sora为例，它的核心功能（让生成的人脸与声音匹配）是产品提出的想法，技术负责实现。这中间必然有大量争论，但最终结合出一个精彩的产品。现在许多创新功能都是由小团队自发提出原型，做了一个版本就被快速推上线测试，根据反馈强化。这本身就是团队内部的强化学习流程。

我觉得AI时代组织团队的第一个特点就是，技术与产品的深度协作要变得非常不一样。其次，产品推向市场的周期必须极快，包括谷歌现在发产品的时候也喜欢一股脑全上了。过去大家喜欢打磨完善再发布，但现在变化太快了，必须快速推向市场测试，用数据接着驱动下一步。团队要适应这种快速变化和调整。

Michael@Final Round

团队的速度变得非常快。比较接地气地来说，现在和以前的不同是，我们在招人时会问：“你觉得未来6个月，能否做出一个AI取代你自己？”害怕失去工作而说“不”的人，我们通常会拒绝。我们要的是那些说“是”，并愿意用AI工具让自己更高效的人。我们也看到了现在硅谷大量的公司在面试的时候，甚至都不会有一个传统的面试的流程了，而是直接上手去做。

另一个变化是团队项目优先级的安排。以前资源有限，只能做投资回报率高的事。现在有了AI，团队有能力也有时间去做一些低ROI但可能有长期价值的事情，因为消耗的主要是token，而非大量工程师工时。有些东西做完后会一直跑下去，但可能两年后才能展现作用。这让我们有机会布局更远的未来。

展望未来一年，Agent领域可能发生的最大变化是什么？

Michael@Final Round

我觉得最大的变化会是信息的分发方式。现在硅谷的GEO非常火，我每天会收到很多想卖GEO的供应商信息，大家都想占据全新的分发渠道。所以未来传统搜索可能不再是最大的流量入口，GEO对于所有初创公司而言会是全新的、至关重要的分发渠道。

陈锴杰@Macron AI

最大的变化是不是Open AI会上市？但话说回来，我感觉明年会是一个非常复杂的复合型变化，可以从两个角度看。

技术层面，2024年AI圈有点沉寂，但2025年随着DeepSeek出来后很多开源项目都出来了。到今年年底，在基础模型趋于稳定后，更新的技术会涌现，比如文本扩散生成（Text Diffusion）、视频推理（Video Reasoning）等。这些技术会催生一批交互上很创新、让人眼前一亮，但你也不知道好不好的产品。市场会非常兴奋，尽管我们还不完全清楚它们到底解决什么需求。

人的层面，今年大家虽然看到硅谷大厂疯狂用很离谱的价格在挖人，但更像一种放卫星行为。更多一批顶尖的研究者正在从海外大厂回流，无论是在国内还是海外创业，都在寻找新机会。

所以我觉得2026年，无论是底层技术、项目还是这些人，都蕴藏着前所未有的机遇，是一个值得加大投入、下更多注的时点。

尹一峰@TEA.AI

我同意明年将是“百花齐放”，也是“群魔乱舞”的一年。23-24年大家研究路径还很统一、还在干同一件事，但现在技术路径已经分岔，之前一些根深蒂固的问题都有人在向他们发起挑战。最重要的事是分清谁是“花”，谁是“牛鬼蛇神”。绝大多数创新可能无法商业化，这之中需要甄别。

第一个趋势，我认为“超级大模型”可能会慢慢沉寂，小模型越来越强，终端硬件也越来越强。未来我们会看到，超级大模型有可能逐渐被特别专业的端上模型取代。超级大模型的时代可能在3年左右终结，接下来会是每个公司都拥有一大堆自己小模型的时代。因为训模型的成本越来越低，质量也越来越高，而且硬件也越来越强。

第二个趋势，我觉得在这种“群魔乱舞”之后，技术路线会重新统一。可能在2027年左右，会迎来一个像2024年那样相对“无聊”的时期。但千万别低估这个时代，AI的进化速度太快了，绝不会出现像上世纪90年代那样的AI寒冬。在新一轮低谷到来前，一定会有新的突破掀起新的浪潮。技术就在市场这样的冷热交替中螺旋式上升，一步步落地成为能够对社会进步起到关键助益的生产力。

本文来自微信公众号“线性资本”，作者：Linear Capital，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。