从「模型至上」到「体验驱动」,AI Agent下半场比赛怎么打?
AI的竞争已进入“下半场”,这一由OpenAI前研究员姚顺雨率先提出的概念,正在重新定义行业的竞争焦点:AI的下半场,核心将不再是训练一个更聪明的模型,而是决胜于智能体的评估、进化与真实场景的落地能力。
这背后,是一场从“模型至上”到“体验驱动”的深刻转向。技术的突破是基础,但真正的驱动力,是人的需求在进化——从“帮我做事”到“懂我心情”。这场变革不仅催生了新的产品形态,更在重塑人机交互的底层逻辑:交互设计从工程学问题变成了心理学问题,而构建Agent的团队,也从纯工程思维转向了“工程+管理”的复合角色。
我们正在见证AI Agent在成长过程中的一次关键“身份转向”。
它的核心任务,从忠实执行预设指令,转向了在复杂环境中自主理解、决策与进化。这标志着一个新阶段的开始:AI竞争的逻辑已然改变,从打磨模型的“智力”,转向了构建智能体的“能力”与“品格”。前者关注它“知道什么”,后者则考验它如何在真实场景中“持续做得更好”,并最终赢得人类的信任。
这一转变重塑了从技术、产品到商业的完整链条。在技术侧,重心从一次性的预训练,移向了持续性的评估与改进闭环。在产品侧,体验设计的核心命题,从“如何让用户最快完成任务”,变成了“如何让用户愿意与之长期相处”。在商业侧,价值衡量标准则从“降本增效的工具”,拓展为“可承担责任的数字协作者”。
换言之,AI Agent正在进行从“工具”到“协作者”的改变。这不仅需要更精巧的算法,更依赖于对人性需求、社会行为和组织逻辑的深刻洞察。
今天的分享,源于线性资本AGM大会上,线性资本董事总经理郑灿与三位AI应用领域公司创始人的深度对话。Final Round联合创始人兼CEO关明皓、Macron AI创始人兼CEO陈锴杰、TEA.AI创始人尹一峰,向我们分享了基于实践视角,Agent如何跨越从“可用”到“好用”的关键鸿沟,以及背后的技术逻辑与产品哲学。
从“模型”到“体验”的时代,过去一年什么导致了Agent领域的巨大进展?
Michael@Final Round
变化来自几个层面的叠加。首先,更长的上下文窗口(Context window)让我们能把更丰富的内容和场景放进Agent的工作流。其次,各种工具接口变得前所未有的成熟和易用,搭建一个复杂的Agent系统在今天可能只需要一个简单的流程。最后是一些创造性的能力被挖掘出来,比如实时搜索、多智能体互动,这些都让Agent的边界得到迅速扩展。
陈锴杰@Macron AI
我认为本质上是思路的转变。去年到今年最大的变化,是我们从“预训练时代”走向了“以经验驱动的时代”。
过去,我们用Pre-training来训一个模型,是世界知识的提取和模仿,模型的价值就基本固定在那儿了。但现在,大家开始做强化学习(RL),意识到真正的智能提升,必须依赖与环境的持续互动。无论是Context还是MCP,目的都是让模型从互动中获得更多的经验(Experience),用其来提升自己。
Cursor就是一个非常好的例子。用户每按一次Tab键,都是一次与环境和用户的互动,这些数据反过来提升了模型的能力。所以今年的Agent爆发,表面是技术积累,内核是思维转变——从训练一个好模型,变成了构建一个能让模型在优秀产品体验中自我进化的循环。
尹一峰@TEA.AI
我的视角可能不太一样。除了技术上的天翻地覆,我认为人的需求也发生了根本变化。
以前人们更关注“这件事能帮我做什么”,是具体场景。现在,人们对具体事务之外的抽象需求越来越高。“情绪价值”这个词的爆火就是明证。而情绪价值,只能由“人”或“像人的东西”来提供。
Agent在交互中最大的作用,未必是效率最高或反应最快,而是因为它“像人”。某种程度上来说,你拥有五个Agent,就像手下有五个人——这是一种“权力感”。其次,人与人的交流不只是工具性的,Agent既可以替你办事,也可以提供情绪。这是市场需求倒逼Agentic Al爆发的原因。满足情感需求,目前只有大模型和Agent能做到,传统算法不行,因此会倒逼企业在这方面进行创新。
ToC场景中,Agent带来的最大体验改变是什么?
尹一峰@TEA.AI
是从“完成一件事”到“与一个人真正交流”的转变。过去的人机交互(HCI )原则是让你用最快时间完成任务。现在不是了,HCI不只是“人机交互”,也成了“人与人交互”,因为Agent像人。
现在的HCI设计,很多内容不再是工程学问题,而是心理学问题——你需要让Agent真的与人建立连接,建立一种信任感。目前几乎没有公司能做到,而这恰恰是真正的用户粘性所在。
你可能会因为一把更好的锤子而扔掉旧的,这是工具属性。但是想象一下,你有一条养了10年的狗,会因为突然来了一条更名贵的狗,就把之前那条狗换掉吗?这是不可能的。这就是情感羁绊。如果能达到这个标准,那就是时代级的体验差:从“用一个纯粹工具完成目的”到“拥有一个能帮忙的朋友”。我们正在探索这条路。
所有Agent公司都要训模型,是真命题还是伪命题?
陈锴杰@Macron AI
之前我的Cofounder在线性技术π活动上这么说过,那我肯定支持这句话,但需要加个解释——不是说所有公司,而是一个好的Agent产品公司,最终都会走上模型训练这条路。这里说的“训练”,主要指后训练,而非预训练。
以Thinking Machines Lab为例,Mira从OpenAI出来创业,完全有能力做一支预训练团队,但他们跳过了这步骤,只做后训练。包括他们最近发的产品Tinker,一个更便宜、用更少卡、能做RL后训练的工具,也是在做后训练的部分。
为什么必须要做?因为我们现在身处“经验智能时代(Era of Experience)”。硅谷现在的最大共识,是无论产品公司还是模型公司,都要把强化学习规模化地放进产品,让产品和用户一起迭代。这就像启动新一代推荐系统。模型以前是冻结的,不会升级。现在我们需要思考如何让它后面99%的参数也“动起来”,通过在线强化学习或策略适应,而不仅仅是上下文的适应,我们就有可能让用户在使用产品时觉得用得越来越好。
未来的Benchmark会改变,不再是模型回答对多少题,而是在与用户互动中,能力提升的斜率有多大。如果一个产品构建的反馈环境足够好,它完全可能在3到6个月内超越其他所有,让指标达到最高。这就是为什么产品公司必须接触模型训练、构建自己的环境,否则在AI管线日益复杂的未来,将没有竞争力。
Agent一旦完成不了任务就显得“不可靠”,在实践中如何解决可靠性问题?
Michael@Final Round
我们内部做了一个很直接的解决工具:录屏软件。学习一件事最简单的方式,就是看真人怎么做,这某种程度上也是沿用了RL的概念。我们会录制想要复刻的关键工作流程,反复回溯,找出那些“人能做到但机器做不到”的细节,不断尝试突破限制。
陈锴杰@Macron AI
Agent做不出东西其实非常正常。现在有很多的通用Agent,它们的边界是由用户行为和技术共同定义的,而且正在快速扩张。用户自己一开始也是没有概念的,也搞不清边界在哪,所以总会提出“离谱”的需求,比如“用我的小程序做个黑神话悟空的第二部看看”,这显然做不到。当然,也会存在看似合理但受限于工具的需求。
我目前想到的拓展边界可能有三种方式:一是人工做工具接入;二是像浏览器这类自动拓展;第三种,也是我认为代表未来的方式,是Agent自己发现失败案例,加入RL训练集,进行下一代训练。这其中的难点在于如何智能地识别和筛选案例。我们自动改进的管线已经在前两种人工的监督下运行,但理想状态是产品放在那里,用户用它,它就能自动变好。
尹一峰@TEA.AI
我们有个很好的参照物:RLVR(Reinforcement learning with verifiable reward,可验证奖励的强化学习)。如果能把Agent工作流拆解成每一步都能极快验证,你就能迅速定位错误。但问题在于,绝大多数用户指令非常模糊,无法被拆解成可以快速被验证的东西。
不过,用户行为会给出线索。比如用户收到答复后几秒钟的“一脸懵逼”状态,或直接说“我不喜欢”。我们需要在与用户交互的各种细微处,判断给出的内容好不好。因为所有大模型本质都是某种监督学习,你需要“解码”用户的反应。
另一个问题是,如果用训练模型的方式改进,效率虽高,但用户当前的这次失败交互体验很差。因此,至少需要有“上下文内反思(In-context)”的方法去做实时改进,在训练模型之前,就给用户一个更好的实时反馈。这个反思的过程,本身也在为后续的训练产生优质数据。
构建一个Agent应用团队,在人员思维和协作上有什么根本不同?
尹一峰@TEA.AI
最大的思维区别是,Agent设计不单是工程学问题,还是个管理学问题。因为Agent的核心特征就是“像人”,而Agent系统讲究团队协作。你需要考虑在什么位置放什么样的“人”,设计整个组织的拓扑结构(Topology)。
你需要训练不同性格的Agent。同样的问题,给不同性格的Agent,结果应该不同。我们希望什么样性格的“人”在这个岗位上,这是设计时要考虑的。我们的时间分配可能是60%在工程上,40%在讨论“我们到底想要一个什么样的‘人’在这个APP里”。
现在的四大模型,GPT、Claude、Gemini、Grok,各有鲜明“性格”,你可以把它们看作可无限复制的AI员工。你需要决定这四种“人”分别出现在哪里。这个时代,哪怕是工程师,也需要一点与人打交道的经验,得知道什么样的人适合做什么工作,再去选一个跟这样的人最接近的Agent去做事情,而且在提示工程(Prompt Engineering)中你也要能持续产生反馈。因此,这个时代对于工程师的角色要求变得非常高。
陈锴杰@Macron AI
在团队内部协作上,也完全不同。它需要技术与产品进行前所未有的深度配合。以Sora为例,它的核心功能(让生成的人脸与声音匹配)是产品提出的想法,技术负责实现。这中间必然有大量争论,但最终结合出一个精彩的产品。现在许多创新功能都是由小团队自发提出原型,做了一个版本就被快速推上线测试,根据反馈强化。这本身就是团队内部的强化学习流程。
我觉得AI时代组织团队的第一个特点就是,技术与产品的深度协作要变得非常不一样。其次,产品推向市场的周期必须极快,包括谷歌现在发产品的时候也喜欢一股脑全上了。过去大家喜欢打磨完善再发布,但现在变化太快了,必须快速推向市场测试,用数据接着驱动下一步。团队要适应这种快速变化和调整。
Michael@Final Round
团队的速度变得非常快。比较接地气地来说,现在和以前的不同是,我们在招人时会问:“你觉得未来6个月,能否做出一个AI取代你自己?”害怕失去工作而说“不”的人,我们通常会拒绝。我们要的是那些说“是”,并愿意用AI工具让自己更高效的人。我们也看到了现在硅谷大量的公司在面试的时候,甚至都不会有一个传统的面试的流程了,而是直接上手去做。
另一个变化是团队项目优先级的安排。以前资源有限,只能做投资回报率高的事。现在有了AI,团队有能力也有时间去做一些低ROI但可能有长期价值的事情,因为消耗的主要是token,而非大量工程师工时。有些东西做完后会一直跑下去,但可能两年后才能展现作用。这让我们有机会布局更远的未来。
展望未来一年,Agent领域可能发生的最大变化是什么?
Michael@Final Round
我觉得最大的变化会是信息的分发方式。现在硅谷的GEO非常火,我每天会收到很多想卖GEO的供应商信息,大家都想占据全新的分发渠道。所以未来传统搜索可能不再是最大的流量入口,GEO对于所有初创公司而言会是全新的、至关重要的分发渠道。
陈锴杰@Macron AI
最大的变化是不是Open AI会上市?但话说回来,我感觉明年会是一个非常复杂的复合型变化,可以从两个角度看。
技术层面,2024年AI圈有点沉寂,但2025年随着DeepSeek出来后很多开源项目都出来了。到今年年底,在基础模型趋于稳定后,更新的技术会涌现,比如文本扩散生成(Text Diffusion)、视频推理(Video Reasoning)等。这些技术会催生一批交互上很创新、让人眼前一亮,但你也不知道好不好的产品。市场会非常兴奋,尽管我们还不完全清楚它们到底解决什么需求。
人的层面,今年大家虽然看到硅谷大厂疯狂用很离谱的价格在挖人,但更像一种放卫星行为。更多一批顶尖的研究者正在从海外大厂回流,无论是在国内还是海外创业,都在寻找新机会。
所以我觉得2026年,无论是底层技术、项目还是这些人,都蕴藏着前所未有的机遇,是一个值得加大投入、下更多注的时点。
尹一峰@TEA.AI
我同意明年将是“百花齐放”,也是“群魔乱舞”的一年。23-24年大家研究路径还很统一、还在干同一件事,但现在技术路径已经分岔,之前一些根深蒂固的问题都有人在向他们发起挑战。最重要的事是分清谁是“花”,谁是“牛鬼蛇神”。绝大多数创新可能无法商业化,这之中需要甄别。
第一个趋势,我认为“超级大模型”可能会慢慢沉寂,小模型越来越强,终端硬件也越来越强。未来我们会看到,超级大模型有可能逐渐被特别专业的端上模型取代。超级大模型的时代可能在3年左右终结,接下来会是每个公司都拥有一大堆自己小模型的时代。因为训模型的成本越来越低,质量也越来越高,而且硬件也越来越强。
第二个趋势,我觉得在这种“群魔乱舞”之后,技术路线会重新统一。可能在2027年左右,会迎来一个像2024年那样相对“无聊”的时期。但千万别低估这个时代,AI的进化速度太快了,绝不会出现像上世纪90年代那样的AI寒冬。在新一轮低谷到来前,一定会有新的突破掀起新的浪潮。技术就在市场这样的冷热交替中螺旋式上升,一步步落地成为能够对社会进步起到关键助益的生产力。
本文来自微信公众号“线性资本”,作者:Linear Capital,36氪经授权发布。















