人脑细胞做成芯片打Doom,20万活体神经元自己探路杀敌,学习效率碾压深度强化学习
20万人类脑细胞组成“脑PU”,学会了玩经典游戏《毁灭战士》。
这些活体神经元通过强化学习学会了找到敌人、开枪射击、转身移动,甚至弹药管理。
正是同一项技术,5年前让培养皿里的脑细胞学会了打乒乓球游戏Pong。
Pong的逻辑很简单,球往上,球拍就往上,是直接的输入输出关系。
Doom完全不同。它是3D的,有敌人,需要探索环境,而且很有难度。
当年让神经元学会玩乒乓球,Cortical Labs团队花了18个月。
这一次是独立开发者Sean Cole,通过Cortical Labs开放的云平台API,用不到一周时间就完成了Doom的适配,代码已开源。
虽然它还离打到电竞水平很远,Cortical Labs负责人承认现在演示水平还很初级。
现在这些细胞玩起来就像一个从没见过电脑的新手。但公平地说,它们也确实没见过。
但它真正的意义在于,这是一种能够以非常特殊的方式处理信息的材料,而这种方式在硅芯片上无法复制。
学习效率超越三大强化学习算法
为了实现脑芯片玩游戏,关键在于如何把数字游戏世界翻译成神经元能理解的语言:电信号。
游戏画面被转换成电刺激模式,当怪物出现在屏幕左侧,芯片上神经培养区的左侧电极就会被激活。
神经元对刺激产生反应,研究人员监测这些反应的“尖峰信号”,再将其解读为游戏指令。特定的放电模式让游戏角色开枪,另一种模式让角色向右移动,以此类推。
Cortical Labs这次不只端出演示视频,背后还有一系列学术研究。
其中一项研究解释了如何通过DishBrain系统,将体外培养的神经网络与高密度多电极阵列结合,在简化版Pong环境中对活体神经元与三大主流深度强化学习算法DQN、A2C和PPO进行了正面对比。
他们记录了HD-MEA上1024个通道的神经尖峰活动,涵盖285次游戏会话和147次静息会话,采样频率为20kHz。通过t-SNE和Isomap两种降维算法,团队将高维的神经活动嵌入低维空间进行分析。
实验设计的核心约束是“样本效率”。
每次生物培养物的游戏录制时长为20分钟,在此期间平均完成约69到70局对打。为了实现匹配比较,三种深度强化学习算法也被限制在相同的70局训练量内,每种算法用150个不同的随机种子分别训练,相当于150个独立的神经网络,对应150份不同的生物培养物。
研究使用了两种来源的皮层细胞:
人类诱导多能干细胞(hiPSC)分化的人类皮层细胞(HCC)和小鼠胚胎提取的小鼠皮层细胞(MCC),约100万个细胞被铺设在HD-MEA芯片上。
为了考虑输入信息密度对结果的影响,研究者为强化学习算法设计了三种不同的输入方式:40×40像素的灰度图像输入、包含球拍和球坐标的四维向量输入、以及尽可能模拟DishBrain信息结构的球位置输入。
结果非常明确:
在所有三种输入设计下,生物培养物在平均每局击球次数、发球直接失误率(aces)和长回合比例三项核心指标上全面超越所有强化学习算法。
更关键的是学习动态的差异:
将每次20分钟的实验分为前5分钟和后15分钟进行对比,只有HCC和MCC组在平均回合长度上呈现出统计学显著的提升,而DQN、A2C和PPO在任何输入设计下都没有出现显著的组内改善。
HCC组在相对改善幅度上显著优于所有强化学习方法,MCC组也在多项对比中超越了PPO和DQN。
生物培养物接收的输入信息极其稀疏,仅8个刺激电极点,以4到40Hz的频率进行速率编码,而图像输入设计中强化学习算法接收的是40×40共1600个像素。
研究者专门设计了低维度输入的对照组来排除”维度诅咒”的干扰,结果发现即使信息输入更加稀疏,强化学习算法的表现反而更差,而非更好。
当训练集数扩展到数万局时,三种算法最终都能超越生物培养物的水平,这印证了:
在真实时间尺度下,生物系统的样本效率远非当前强化学习算法可比。
神经元在游戏中发生了什么?
研究团队对这个问题进行了深入探索。
他们记录了HD-MEA上1024个通道的神经尖峰活动,涵盖285次游戏会话和147次静息会话,采样频率为20kHz。通过t-SNE和Isomap两种降维算法,团队将高维的神经活动嵌入低维空间进行分析。
在游戏状态下,两种降维算法都能清晰地区分这两个阶段的活动模式,呈现出明显的网络动态变化;
而在静息状态下,前后两段的活动模式在低维空间中几乎无法区分。
团队进一步开发了一套方法,从1024个通道中筛选出30个最具代表性的通道来构建功能连接网络。
比较每次录制的前2分钟和最后2分钟,游戏状态下的网络在边数、密度、平均权重和模块化指数等多项指标上都出现了统计学显著的变化,而静息状态下这些指标没有显著差异。
游戏状态下的网络呈现出更多正向增强的功能连接,模块化指数显著下降,这意味着原本彼此独立的神经元社区开始建立更多跨社区的连接,网络正在为完成任务而重新组织自身。
研究团队在论文中将这类系统命名为“合成生物智能”(Synthetic Biological Intelligence,SBI),并指出这是首次在SBI与强化学习系统之间进行正式的性能比较。
论文讨论部分提到,与反向传播相比,前向传播学习过程更符合生物学规律。
生物系统可能依赖预测编码、主动推断、Hopfield网络等更高效的前向学习过程。
团队还测试了一种基于主动推断和反事实学习的生物启发算法,确实观察到了比标准强化学习更快的学习速率,但该算法仍然高度依赖超参数选择,且功耗远高于生物系统。
CL1:首台可编程生物计算机
这次演示运行在Cortical Labs去年发布的CL1上,官方称其为”世界首台可部署代码的生物计算机”。这台设备的核心是一块多电极阵列芯片,上面生长着约20万个活体人类神经元。
研究团队开发了配套的API接口,允许任何用户通过简单的Python命令与芯片上的活细胞进行交互。
为了验证确实是神经元在学习而非算法在代劳,团队设计了对照实验:当用随机信号或零信号替代真实的神经元放电时,学习效果完全消失。
Kagan表示,团队已经解决了接口问题,实现了与脑细胞的实时交互、训练和行为塑造。
下一步的目标是让神经元不仅能玩Doom,还要玩得出色,然后挑战更复杂的任务,比如控制机械臂。
团队向开发者和研究人员发出邀请:API已开放,云平台已开放,神经元已就绪。
唯一的问题是,你想教它们什么?
参考链接:
[1]https://www.youtube.com/watch?v=yRV8fSw6HaE
[2]https://github.com/SeanCole02/doom-neuron
[3]https://pmc.ncbi.nlm.nih.gov/articles/PMC12320521/
本文来自微信公众号“量子位”,作者:梦晨,36氪经授权发布。















