Science重磅:下一代协作型AI Agent?UCLA团队揭示AI、小鼠的共同合作逻辑

学术头条·2025年09月26日 17:27
AI 复刻小鼠合作逻辑。

合作是人类社会的基础,理解合作如何产生并维持,不仅对解决冲突、治疗影响社会行为的疾病具有深远意义,也对设计更优的人工智能(AI)系统至关重要

随着多 AI Agent 系统在自动驾驶、分布式机器人等场景的落地应用,如何让 AI 学会高效合作,已成为突破技术瓶颈的关键。

已有研究表明,人工 Agent 和生物 Agent 可以表现出相似的行为策略和神经表征。这为探索人工 Agent 在交互时如何产生合作行为,以及这类交互是否可能由类似生物系统中的神经网络动态驱动,开辟了新的方向。

今天,加州大学洛杉矶分校助理教授 Weizhe Hong 团队在这一领域取得了新的突破——通过对比小鼠和人工 Agent 在合作任务中的表现,证明 AI 系能够形成与生物大脑中的观察结果相似的行为策略和神经表征。

这项研究首次直接比较了生物大脑和 AI 之间的合作学习,为社会行为中最重要的方面之一提供了新见解,同时也为人类打造出更智能的协作型 AI 提供了全新思路

相关研究论文以“Neural basis of cooperative behavior in biological and artificial intelligence systems”为题,已发表在权威科学期刊 Science上。

论文链接:https://www.science.org/doi/10.1126/science.adw8151

实验验证:小鼠是如何学会协作的?

为探究生物合作的底层逻辑,研究团队设计了一次小鼠合作实验。实验选用 8 周龄的 C57BL/6J 小鼠,将其两两配对,放置在中间有透明带孔分隔板的实验舱内。分隔板的设计很关键,既让两只小鼠能通过视觉、嗅觉和轻微肢体接触感知彼此,又避免了直接肢体干扰。

图|小鼠合作实验中实验舱示意图。

实验的核心任务是同步鼻触:每只小鼠所在的舱室都有一个鼻触口和一个饮水口,只有当两只小鼠在规定时间窗口内先后完成鼻触动作,才能同时获得饮水奖励;若仅有一只小鼠鼻触,或超出时间窗口,双方都无法得到奖励。为逐步提升合作难度,研究团队将时间窗口从初始的 3 秒,逐步缩短至 1.5 秒,最终定为 0.75 秒,以此考验小鼠的协调精度。

在正式实验前,研究团队先对单只小鼠进行“预训练”,让它们学会将鼻触动作与饮水奖励关联,同时剔除鼻触动机极低的个体,确保实验数据的有效性。训练阶段则分为三个阶段,分别对应 3 秒、1.5 秒和 0.75 秒的时间窗口,三个合作阶段分别包含 5 次、10 次和 15 次每日训练,每次训练持续 30 分钟。

经过系统训练,76% 的小鼠的合作表现显著超过随机水平。研究团队进一步通过打乱数据法判断随机水平:将一只小鼠的鼻触时间固定,随机打乱另一只的鼻触序列,计算此时的正确合作概率。对比发现,真实实验中小鼠的正确合作次数远高于随机数据,且错误次数更少,这说明它们是通过主动协调来达成合作。在表现超随机水平的小鼠中,41% 属于“高表现组”。随着训练推进,错误合作次数持续减少,鼻触间隔也不断缩短。

图|对照实验的实验结果。

为进一步验证“主动协调”的必要性,研究团队设计了三组对照实验:一是将透明分隔板换成不透明板,阻断视觉信号;二是让小鼠“各自为战”,达成单独鼻触即可获得奖励;三是“单方合作”,仅一只小鼠需依赖同步鼻触获奖励,另一只可单独获奖励。

结果显示,这三种情况下,小鼠的合作指数均大幅下降,尤其是不透明板组,等待和互动行为几乎完全消失,充分证明小鼠的合作依赖对同伴信息的感知和互利动机。

这些证据共同表明,这种合作行为并非源于独立的基于时间的决策、简单的模仿行为、偶然动作或依赖社会线索的决策。相反,两只动物都正确遵循规则,并根据伙伴的社会信息和互利关系主动协调行动,才能实现成功的合作

关键因素:前扣带回皮层

小鼠的协作行为背后,究竟是哪个脑区在“发号施令”?

研究团队将目光锁定在前扣带回皮层(ACC)。ACC 位于大脑额叶中部,此前研究已发现它与情绪处理、社会决策等功能相关,但在合作行为中的具体作用尚不明确。

为观察 ACC 的神经活动,研究团队采用了微型内窥镜钙成像技术。他们先向小鼠的 ACC 区域注射表达荧光钙离子指示剂(GCaMP7f),通过实时记录钙信号变化,追踪单个神经元的活动。最终成功记录了 17 对小鼠共 12798 个 ACC 神经元的活动数据。

图|小鼠执行合作任务时 ACC 的神经活动(A);对 17 对小鼠的 12798 个神经元进行神经活动记录(B-D)。

分析发现,ACC 神经元对合作事件具有高度特异性响应:一部分神经元仅在正确合作时激活,另一部分则只对错误合作有反应,且响应正确事件的神经元数量明显更多。正确事件响应神经元的占比,与小鼠的合作表现呈正相关:高表现组小鼠的 ACC 中,这类神经元的比例显著高于普通组。说明 ACC 对成功合作的编码能力,直接影响合作效果。

图|在合作条件下对正确或错误试验产生反应的神经元,在不透明分隔板条件下仅表现出微弱的神经活动;相反,另一组基本独立的神经元则对自发触鼻行为产生反应。

研究还发现,ACC 不仅能识别合作结果,还能编码合作中的关键决策。通过支持向量机(SVM)解码 ACC 神经信号,研究团队能准确区分这两种决策状态,证明 ACC 是合作决策的“大脑”。

通过 SLEAP 姿态追踪技术,研究团队还拆解出小鼠合作的三大核心策略:

接近:小鼠会主动靠近分隔板,在鼻触前 2 秒内,向同伴一侧移动的频率显著增加;

等待:当一只小鼠先到达鼻触端口,会在社交区域停留,直到同伴靠近再行动;

互动:两只小鼠会通过隔板两侧的鼻端接触交流,且互动角度从初始的 180 度逐步优化为 120 度,既能保持对同伴的感知,又能快速切换到鼻触动作,策略精度持续提升。

行为相似:AI 复刻小鼠合作逻辑

在揭示小鼠的合作机制后,研究团队将研究范围拓展至生物系统之外,深入探究合作机制在 AI 系统中的形成及其运作方式。

研究团队基于多 Agent 强化学习(MARL)框架,利用循环神经网络(RNN)开发了两个 Agent,并构建了一个模拟小鼠实验的虚拟环境,训练 Agent 在此环境中实现协作。

图|两个 Agent 分别位于两侧,中央设障碍物分隔,每侧均配备“鼻触口”和“饮水口”。

训练结果超出了研究团队的预期:AI 成功掌握了合作策略,且其行为模式与小鼠高度趋同。在合作阶段正确合作次数持续增加,鼻触间隔集中在 2 个时间步内,且错误次数远低于非合作阶段。

研究团队进一步分析 AI 的神经网络活动,发现 AI 中也存在专门编码自我位置和同伴位置的单元。在合作阶段,编码同伴位置的单元活性显著增强,且其占比与 AI 的合作表现正相关;而在非合作阶段活性则明显减弱。

接下来,研究团队深入研究了 Agent 是否会像动物那样展现出促进合作的行为策略。为此,他们分析了每个 Agent 根据其伙伴位置采取的行动。由于 Agent 可直接“看到”彼此,因此最初团队预计其不会出现像小鼠实验中观察到的那种接近或互动行为。

然而结果出乎意料,Agent 会表现出“等待”行为:当同伴距离鼻刺位置较远时,它们会暂停或后退移动。如图所示,两者都试图通过最小化彼此与鼻刺位置的距离差异来主动协调行动。这种主动协调行为出现在正确戳探前,但在错误戳探或非合作状态下则不存在。此外,这种等待行为与个体 agent 更优的合作表现呈正相关。由此可见,这种行为能有效促进 AI agent 的合作行为。

图|Agent 的运动流场分析。

虽然生物小鼠与人工 Agent 属于两类完全不同的系统,但它们在合作行为中却呈现出惊人的相似性。研究团队认为,这种一致性背后的原因主要有以下三点:

首先是信息依赖。无论是小鼠还是 AI,实时感知同伴状态都是合作的前提。小鼠通过透明隔板获取视觉、嗅觉信号,AI 通过传感器观测同伴位置,一旦这些信息被阻断,合作便会迅速崩溃。

其次是合作策略。成功的合作依赖可学习、可优化的预备策略。无论是小鼠的“接近-等待-互动”,还是 AI 的“静止-靠近-同步”,本质都是通过预备行为降低协调难度,并且这些策略会随训练优化。

最后是专属单元。生物和 AI 都演化出了专门编码合作相关信息的“单元”:小鼠 ACC 中,有神经元特异性响应正确合作、编码决策;AI 的 RNN 中,有单元专门处理同伴位置、调控合作动作。这些单元的活性与合作表现直接挂钩,抑制或消融它们,合作能力就会受损。

以上研究结果证明,合作并非生物的专属技能,而是一种可计算、可复制的底层逻辑。随着技术发展,或许将来我们能看到基于这种逻辑的 AI,与人类在多种场景中实现真正意义上的协作。

本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。

+1
3

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

阿里云失去的岁月如何追回来?

4小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业