人脑细胞做成芯片打Doom，20万活体神经元自己探路杀敌，学习效率碾压深度强化学习

量子位·2026年03月02日 11:57

代码已开源

20万人类脑细胞组成“脑PU”，学会了玩经典游戏《毁灭战士》。

这些活体神经元通过强化学习学会了找到敌人、开枪射击、转身移动，甚至弹药管理。

正是同一项技术，5年前让培养皿里的脑细胞学会了打乒乓球游戏Pong。

Pong的逻辑很简单，球往上，球拍就往上，是直接的输入输出关系。

Doom完全不同。它是3D的，有敌人，需要探索环境，而且很有难度。

当年让神经元学会玩乒乓球，Cortical Labs团队花了18个月。

这一次是独立开发者Sean Cole，通过Cortical Labs开放的云平台API，用不到一周时间就完成了Doom的适配，代码已开源。

虽然它还离打到电竞水平很远，Cortical Labs负责人承认现在演示水平还很初级。

现在这些细胞玩起来就像一个从没见过电脑的新手。但公平地说，它们也确实没见过。

但它真正的意义在于，这是一种能够以非常特殊的方式处理信息的材料，而这种方式在硅芯片上无法复制。

学习效率超越三大强化学习算法

为了实现脑芯片玩游戏，关键在于如何把数字游戏世界翻译成神经元能理解的语言：电信号。

游戏画面被转换成电刺激模式，当怪物出现在屏幕左侧，芯片上神经培养区的左侧电极就会被激活。

神经元对刺激产生反应，研究人员监测这些反应的“尖峰信号”，再将其解读为游戏指令。特定的放电模式让游戏角色开枪，另一种模式让角色向右移动，以此类推。

Cortical Labs这次不只端出演示视频，背后还有一系列学术研究。

其中一项研究解释了如何通过DishBrain系统，将体外培养的神经网络与高密度多电极阵列结合，在简化版Pong环境中对活体神经元与三大主流深度强化学习算法DQN、A2C和PPO进行了正面对比。

他们记录了HD-MEA上1024个通道的神经尖峰活动，涵盖285次游戏会话和147次静息会话，采样频率为20kHz。通过t-SNE和Isomap两种降维算法，团队将高维的神经活动嵌入低维空间进行分析。

实验设计的核心约束是“样本效率”。

每次生物培养物的游戏录制时长为20分钟，在此期间平均完成约69到70局对打。为了实现匹配比较，三种深度强化学习算法也被限制在相同的70局训练量内，每种算法用150个不同的随机种子分别训练，相当于150个独立的神经网络，对应150份不同的生物培养物。

研究使用了两种来源的皮层细胞：

人类诱导多能干细胞（hiPSC）分化的人类皮层细胞（HCC）和小鼠胚胎提取的小鼠皮层细胞（MCC），约100万个细胞被铺设在HD-MEA芯片上。

为了考虑输入信息密度对结果的影响，研究者为强化学习算法设计了三种不同的输入方式：40×40像素的灰度图像输入、包含球拍和球坐标的四维向量输入、以及尽可能模拟DishBrain信息结构的球位置输入。

结果非常明确：

在所有三种输入设计下，生物培养物在平均每局击球次数、发球直接失误率（aces）和长回合比例三项核心指标上全面超越所有强化学习算法。

更关键的是学习动态的差异：

将每次20分钟的实验分为前5分钟和后15分钟进行对比，只有HCC和MCC组在平均回合长度上呈现出统计学显著的提升，而DQN、A2C和PPO在任何输入设计下都没有出现显著的组内改善。

HCC组在相对改善幅度上显著优于所有强化学习方法，MCC组也在多项对比中超越了PPO和DQN。

生物培养物接收的输入信息极其稀疏，仅8个刺激电极点，以4到40Hz的频率进行速率编码，而图像输入设计中强化学习算法接收的是40×40共1600个像素。

研究者专门设计了低维度输入的对照组来排除”维度诅咒”的干扰，结果发现即使信息输入更加稀疏，强化学习算法的表现反而更差，而非更好。

当训练集数扩展到数万局时，三种算法最终都能超越生物培养物的水平，这印证了：

在真实时间尺度下，生物系统的样本效率远非当前强化学习算法可比。

神经元在游戏中发生了什么？

研究团队对这个问题进行了深入探索。

在游戏状态下，两种降维算法都能清晰地区分这两个阶段的活动模式，呈现出明显的网络动态变化；

而在静息状态下，前后两段的活动模式在低维空间中几乎无法区分。

团队进一步开发了一套方法，从1024个通道中筛选出30个最具代表性的通道来构建功能连接网络。

比较每次录制的前2分钟和最后2分钟，游戏状态下的网络在边数、密度、平均权重和模块化指数等多项指标上都出现了统计学显著的变化，而静息状态下这些指标没有显著差异。

游戏状态下的网络呈现出更多正向增强的功能连接，模块化指数显著下降，这意味着原本彼此独立的神经元社区开始建立更多跨社区的连接，网络正在为完成任务而重新组织自身。

研究团队在论文中将这类系统命名为“合成生物智能”（Synthetic Biological Intelligence，SBI），并指出这是首次在SBI与强化学习系统之间进行正式的性能比较。

论文讨论部分提到，与反向传播相比，前向传播学习过程更符合生物学规律。

生物系统可能依赖预测编码、主动推断、Hopfield网络等更高效的前向学习过程。

团队还测试了一种基于主动推断和反事实学习的生物启发算法，确实观察到了比标准强化学习更快的学习速率，但该算法仍然高度依赖超参数选择，且功耗远高于生物系统。

CL1：首台可编程生物计算机

这次演示运行在Cortical Labs去年发布的CL1上，官方称其为”世界首台可部署代码的生物计算机”。这台设备的核心是一块多电极阵列芯片，上面生长着约20万个活体人类神经元。

研究团队开发了配套的API接口，允许任何用户通过简单的Python命令与芯片上的活细胞进行交互。

为了验证确实是神经元在学习而非算法在代劳，团队设计了对照实验：当用随机信号或零信号替代真实的神经元放电时，学习效果完全消失。

Kagan表示，团队已经解决了接口问题，实现了与脑细胞的实时交互、训练和行为塑造。

下一步的目标是让神经元不仅能玩Doom，还要玩得出色，然后挑战更复杂的任务，比如控制机械臂。

团队向开发者和研究人员发出邀请：API已开放，云平台已开放，神经元已就绪。

唯一的问题是，你想教它们什么？

参考链接：

[1]https://www.youtube.com/watch?v=yRV8fSw6HaE

[2]https://github.com/SeanCole02/doom-neuron

[3]https://pmc.ncbi.nlm.nih.gov/articles/PMC12320521/

本文来自微信公众号“量子位”，作者：梦晨，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

人脑细胞做成芯片打Doom，20万活体神经元自己探路杀敌，学习效率碾压深度强化学习

学习效率超越三大强化学习算法

神经元在游戏中发生了什么？

CL1：首台可编程生物计算机

最近内容

下一篇