对话陈锴杰:做你的Personal Agent,更要做你的“高情商Agent”|NEXTA创新夜谈

36氪产业创新·2025年11月19日 15:28
从问答工具到生活伙伴。

我们正处在一个与AI日常对话的时代,但这些强大的模型似乎总是患有“健忘症”。每一次新的对话,我们都不得不重复描述任务、背景和我们的需求。我们期待一个能真正记住“我是谁”,理解“我在干嘛”,甚至感知我们情绪与处境的AI。当AI能做到这一点,它将不再是冷冰冰的工具,而是我们真正的数字伙伴。

正是在这个背景下,连续创业者、马卡龙AI创始人陈锴杰,正在探索这个问题的答案。他创立的马卡龙AI,并非又一个聊天机器人,而是一个致力于成为“Personal Agent”(个人智能体)的全新物种。

技术背景的转变是这一切的起点。陈锴杰指出,AI行业正从单纯依靠增加参数和数据的“规模定律”(Scaling Law)时代,迈向“经验时代”(Era of Experience)。当互联网上的高质量数据被消耗殆尽,模型的智能提升遇到了瓶颈。未来,智能系统的竞争力将不再由规模参数决定,而是取决于其从真实用户经验中持续学习和进化的能力。

这一理念的核心是强化学习(RL)。陈锴杰用一个生动的比喻解释了其本质:看十小时网球视频,远不如亲自拿起球拍挥动一次学得快。每一次真实的互动,都为模型提供了蕴含因果关系的高质量数据,让它知道“怎样做才是对的”。这正是硅谷AI代码助手Cursor成功的秘诀——通过分析程序员采纳或放弃了哪些代码建议,其专用模型在速度和质量上甚至超越了许多通用大模型。

陈锴杰将这种哲学融入了马卡龙AI。他认为,AI的终极目标不应是帮你写更多的报告或PPT,而是成为一个“真正关心你生活”的伙伴。为此,马卡龙AI的核心突破在于其独特的“记忆系统”。它不依赖传统的关键词检索(RAG),而是将记忆内化为模型的一部分,通过强化学习不断更新。一个强大的“教师模型”(Reward Model)会根据用户的反馈,判断AI的回复是否令人满意,并指导“学生模型”如何更好地记住和使用信息。

在这种机制下,马卡龙AI能为用户创建超过十万个覆盖旅行、健康、理财等场景的个性化“小应用”。更重要的是,它致力于成为一个纯粹的“个人管家”。陈锴杰刻意避免了社区和广场功能,因为他相信,一个私密、专属的交流环境,才能让用户放心地与AI探讨恋爱、家庭、育儿等真正属于生活的话题。

从一个问答工具到一个生活伙伴,这不仅是产品的进化,更是AI发展范式的深刻变革。正如陈锴杰在分享中所说,好的技术能创造前所未有的产品体验,而产品体验又反过来为模型提供最宝贵的养料。马卡龙AI的探索,或许正是通往那个“高情商AI”未来的务实一步。

以下是嘉宾分享实录,经36氪整理——

一、从“规模定律”到“经验时代”:AI发展的下半场

我相信这张图大家都非常熟悉,这是2020年OpenAI发布的一张图,也是我们常说的“规模定律”(Scaling Law)的基础。图中显示,随着算力越来越大,模型的损失(loss)降得越来越低,效果越来越好,在对数坐标图上形成了一条直线。这张图说明:算力越大,模型越好。

但在2020年后的今天,情况发生了变化。我们现在更常引用的是“Chinchilla定律”。它指出,模型的参数量和其训练所需的数据量之间存在一个恒定的比例关系:模型参数越大,所需的数据就越多。然而,世界上的数据量是有限的。今天我们训练一个模型,大部分使用的数据量级在14TB左右,能训练出的模型参数量大约在1万亿(1T)左右。这意味着,无论是千问、DeepSeek还是Kimi,其模型参数量都很难超过这个上限,因为互联网的数据已经被穷尽了。

数据穷尽后我们发现,即便尝试把模型做得更大、放入更多合成数据,模型的智能也并未得到显著提升。这是今天大模型预训练上半场遇到的最大问题:预训练的容量已达上限,我们达到了规模定律的极限。

那么,下半场是什么?就是我今天主要想讲的——欢迎来到“经验时代”(Era of Experience)。

“经验时代”主要解决的是在无法继续依赖规模定律后,我们该怎么办的问题。这个概念由DeepMind的首席科学家David Silver和强化学习之父Richard Sutton提出。他们倡导用经验来推动模型智能的发展,即用真实的产品和产品中反馈的数据来推动模型进步,而非仅仅依靠预训练。

在“经验时代”,有几个最重要的要点:

1、智能系统的竞争力不再由规模参数决定,而是由其从真实经验中持续学习的能力决定。

2、智能不再仅依靠事先输入的海量数据(Pre-train),而是需要实时、动态的经验反馈来实现自我进化。

这基本上是今天硅谷乃至全球顶尖AI团队的最大共识。

二、强化学习的魔力:如何用真实反馈训练模型

为什么当模型无法做得更大时,我们需要用真实产品的数据来做反馈?这背后的逻辑是什么?

1、寻找信息增益最大的数据

因为无法获取更多数据,所以我们需要更高质量的数据。如何定义高质量?答案是:对模型来说信息增益最大的数据。

让我们回到强化学习的本质。以学打网球为例,一种方法是看10个小时的教学视频再去打球;另一种方法是直接拿起球拍打一下,第一球近了,调整力度再打,第二球就过网了。后者就是让模型进入真实环境互动,它能立刻知道自己“打轻了”或“打重了”。这一个数据点,对模型来说价值极高,因为它包含了明确的因果关系。而在看视频时,你无法确定该关注挥拍节奏、脚步、天气还是观众,信息的价值密度非常低。

因此,真实世界的强化学习数据是更高质量的数据,这是我们进入“经验时代”的根本原因。

2、目标对齐与奖励模型(Reward Model)

强化学习的另一个核心优势是“目标对齐”。我们能把我们想训练的目标,和对用户最有价值的目标对齐起来。过去,AI训练下围棋、打DOTA,这些任务的现实价值有限。今天,我们想训练的是如何写好代码、如何服务好用户、如何选对股票。强化学习能帮助我们把目标从虚拟世界拉到真实世界。

以AI代码助手Cursor为例,它是我认为现在被低估的一家优秀公司。Cursor最近发布了一个自研模型,虽然在最高准确率上不及OpenAI等最顶尖的模型,但它的速度极快,体验非常出色,写代码几乎变成了不断按Tab键的工作。

Cursor是如何做到的?他们采用了“Agent RL”——在Agent产品上做强化学习。具体来说,对于一个写代码任务,模型会生成多个解决方案路径。有的方案能成功运行,有的则失败。系统会收集这些“对”与“错”的结果,然后进行一次训练,告诉模型“对”的方案更好。通过每两个小时聚合一次用户数据并迭代模型,Cursor的模型智能分从40分逐步提升到55分、60分,并且我相信它有潜力超过世界上最好的模型。

这个过程中,最关键的一环是奖励模型(Reward Model),即如何定义“对”与“错”。实际上,并非直接由用户来二选一,而是由一个巨大的“教师模型”(Reward Model)来判定。这个教师模型本身也是一个万亿参数级别的大模型,它通过学习海量的用户数据(例如,用户接受了哪个代码建议、修改了哪里),来预测用户会接受哪个答案。这个教师模型就是我们为AI设定的目标,它的准确性至关重要。

当然,这里面存在“Hacking Problem”,即“学生模型”会用一些小聪明来骗过“教师模型”以获取高分。解决方案是,在“教师”和“学生”身上投入同等级别的算力,让它们进行公平的博弈和共同进化。

三、Macaron AI:打造有记忆、懂你的“个人智能体”

我们的产品Maccron,于8月15日上线,至今用户已在上面创建了超过10万个不同的小应用,涵盖旅行、健康、宠物、心情记录、职业规划等方方面面。

我们在两个方面应用了“经验时代”的技术:

1、小应用生成:在用户生成“拍照识别卡路里”或“记录房贷”等小应用的过程中,我们使用了强化学习技术,让模型学会如何生成一个稳定、可用的应用。

2、记忆系统:这是我们应用强化学习的另一个重点。

今天的记忆系统惯常做法是基于关键词的检索(RAG),但这更像是“背诵课文”,而非“理解应用”。我们认为,记忆应该是手段,而不是目的。调取记忆的最终目的是为了更好地解决用户当前的问题。

因此,我们将用户的满意度作为评估指标,训练了一个带推理能力的Reward Model。我们的记忆系统不是一个外部数据库,而是一个内嵌在模型中的、可训练的“记忆区块”。在对话过程中,这个区块会根据上下文和用户反馈动态变动,模型会自主决定什么值得记、什么需要修改。这种方式让记忆成为了大模型自身的一部分,从而可以被强化学习训练,效果远超传统的RAG。

在这个过程中,我们还用到了蚂蚁集团开源的Text Diffusion技术(dInfer推理框架)。它能同时生成千字文本,并且支持直接修改中间内容,速度极快。我们相信这项技术在未来会有巨大的产品潜力。

我们认为,好的技术可以创造前所未有的产品体验,而产品体验又作为环境收集用户数据,反过来加强模型训练,模型变强后又能创造更新的体验。这是当代AI公司可以做的最有趣的事情。

四、现场问答:关于产品、技术与未来的深度交流

Q1:Macaron支持很多场景,但这和强化学习需要在垂直领域应用的特点似乎有矛盾,如何平衡?

陈锴杰:确实,RL在垂类场景更好发挥。但“垂类”的定义是相对的。对模型来说,“写代码”已经是一个垂类。我们做的“写小应用”是写代码的一个子分类,因为我们有固定的前后端选型和UI交互方式,范围更小。

从应用场景来说,我们也在做减法。Macaron不是一个工作Agent,它不做PPT、财报或深度研究。我们希望它专注在“生活记录与规划”上。无论是理财、健身还是旅行规划,其核心都是记录和规划,这背后有一定的UI范式可以遵循。我们先在缩小的范围内做深,未来随着技术发展再逐步打开边界。

Q2:如何筛选用户记忆的有效性?用户有时候的表达是随意甚至矛盾的。

陈锴杰:我们理想的Agent,是你只需跟他对话,他就能自行判断什么该记、什么该忘。比如你昨天爱吃牛肉,今天过敏了,他应该知道不再推荐牛肉。

我们的训练方式就是不去预设规则,让模型自己判断。我们观察到,模型会更关注用户以“我”开头的、关于个人情况的句子,而对于一些评论性的内容则不太会记录。我们相信,只要模型训练得足够多,它最终能根据用户的语言习惯,帮助他记住他想记的东西,并持续更新。

Q3:生成小应用和个人记忆这两个功能之间似乎是割裂的,如何理解这个设计?

陈锴杰:这涉及到我们更长远的愿景。我们希望Macaron成为一个懂你的生活管家,能用多种形态满足你的需求。比如你问“晚上吃什么”,AI除了用文字回复,更好的方式是直接提供一个类似外卖软件的卡片让你挑选。这个卡片就是一个“小应用”。

我们最终设想的形态,是在聊天中交付各种小组件来创造价值,而非仅仅通过聊天。今天因为技术限制,我们还无法在5秒内生成并交付一个小组件,所以才把它做成了一个独立的Mini App功能。未来,我们希望这两者是融合的。

Q4:你认为Personal Agent未来的发展趋势是什么?

陈锴杰:我相信未来每个人都会有一个自己的AI生活管家。它可能会替代今天手机上排名靠后的大部分应用。你的个人管家应该能帮你设闹钟、管理日历、订机票、在淘宝下单、叫外卖。这个空间非常大,但谁会成为最大的玩家,以及最终会是什么形态,今天还很不确定。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

山姆北京昌平店11月21日开业,系全国第61家门店。

3小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业