物理学家靠生物揭开AI创造力来源：起因竟是“技术缺陷”

量子位·2025年07月04日 14:43

一个“多余手指”引发的思考

AI的“创造力”居然是一种技术缺陷？？

两位物理学家以生物系统自我组装的过程为参考，提出并验证了一个大胆的假设——

扩散模型的去噪过程就像细胞的分化重组，图像生成AI无法精确“复制”的原因也可能和它的“基因”（架构）有关。

在一篇已被ICML 2025接收的论文中，这两位研究者通过建立有扩散模型特性的数学模型证明：

AI的”创造力”本质上是一种确定性过程——是模型架构直接且必然产生的结果。

他们的假设从何而来？他们又做了什么来证明这个假设？

让我们一起来看。

事情的起因：算法的独特创造力

人工智能系统在进化的过程中越来越模仿人类的思维能力，并展现出了一种独特又怪诞的“创造力”天赋。（所谓AI味？）

以扩散模型为例，作为DALL·E、Imagen和Stable Diffusion等图像生成工具的核心，其设计初衷是精确拟合训练数据的分布，生成与训练图像完全一致的副本。

然而在实践中，它们似乎在即兴创作，将图像中的元素融合以创造出新的东西——不是无意义的彩色团块，而是具有语义意义的连贯图像。

是什么赋予了它们即兴发挥的能力？

巴黎高等师范学院人工智能研究员、物理学家朱利奥·比罗利（Giulio Biroli）将这种现象称为扩散模型的“悖论”：

如果它们完美工作，就应该只是记忆。

但它们并没有——实际上它们能够生成新的样本。

为了生成图像，扩散模型使用一种称为去噪的过程：它们将图像转换为数字噪声（像素的无序集合），然后重新组装。就像反复将一幅画通过碎纸机，直到只剩下细小的尘埃，然后将碎片重新拼合在一起。

多年来，研究人员一直困惑不解：如果扩散模型只是在重组数据，那创造力从何而来？这就好比把一幅撕碎的画重新拼凑，却变成了一件全新的艺术品。

有两位物理学家提出了一个大胆的假设：会不会是在重组的过程中有什么信息丢失了呢？一张拼图可以按说明书拼回原型，但如果说明书不见了呢？

他们用论文证明了他们的猜想，这篇论文已被ICML 2025收录。

惊人的发现：现实与AI的“多余手指”共性

这两位物理学家会提出这样的假设，和他们的背景密切相关：

论文的第一作者梅森·坎姆（Mason Kamb）长期以来一直痴迷于形态发生学——即生命系统自我组装的动态过程。而他的研究生导师（也是论文的另一作者）苏里亚·冈古利（Surya Ganguli）同时在神经生物学和电气工程领域也有任职。他们都有跨学科的背景。

△

要理解人类和其他动物胚胎的发育过程，有一种方法是通过”图灵模式”——这个理论得名于20世纪数学家艾伦·图灵，解释了细胞群如何自行组织形成不同的器官和肢体。

根据图灵模式，细胞的协调完全是在局部层面完成的：并没有一个”总指挥”来监管数万亿个细胞，确保它们都符合最终的身体构造方案。

换句话说，单个细胞并没有一个完整的身体蓝图作为工作依据，它们只是根据邻近细胞发出的信号采取行动并做出调整。

这种自下而上的系统通常运行顺畅，但偶尔也会出错——例如产生多指畸形的手。

唉？多指畸形的手？第一批AI生成的图像，最经常被批评的不就是多指畸形的手吗！？

坎姆马上把AI生成的那些奇怪图像和形态发生学联系在了一起：“这感觉就像是一个自下而上的系统会犯的错误。”

AI研究人员到那时已经知道，在生成图像时扩散模型会采取一些技术捷径：局部性和等变性。

局部性是指，扩散模型一次只关注一组或一“块”像素；

而等变性的规则是：如果你将输入图像在任何一个方向上移动几个像素，系统会自动调整以在生成的图像中做出相同的改变——是模型保持连贯结构的方式，没有它，创建逼真图像将更加困难。

由于这些特性，扩散模型不会关注某个特定区域块将如何嵌入最终图像中。它们只是专注于一次生成一个区域块，然后使用一个称为分数函数的数学模型自动将它们嵌入位置，这个分数函数可以被视为一种数字化的图灵模式。

听起来很像拼拼图是吧？我们拼拼图的时候也是一部分一部分、看着拼起来的。

有些艺术家会故意“打乱”拼图的顺序，创造出新的艺术作品，或者将不同画作的部分拼贴在一起——这种艺术被称为“拼贴艺术”。

然而，研究人员长期以来将局部性和等变性视为去噪过程中的限制，是阻碍扩散模型完美复制图像的技术难题，他们并未将它们与创造力联系起来，因为创造力被视为一种更高级的现象。

可是坎姆并没有这么想，恰恰相反，他认为：造成扩散模型“创造力”的原因，就是被其他人视为问题的局部性和等变性！

证明的方法：只优化局部性和等变性

为了证明这个假设，坎姆和冈古利提出了一种验证思路：如果他们能够设计一个系统，只优化局部性和等变性，那么这个系统应该表现得像扩散模型。

这两位物理学家将他们的系统称为等变局部评分机（ELS）。它不是一个训练好的扩散模型，而是一组方程——可以仅基于局部性和等变性的机制，来解析和预测去噪图像的组成。

然后他们将一系列转换为数字噪声的图像同时输入ELS与包括ResNet和UNet在内的多种强力扩散模型，进行对比测试。得到的结果“令人震惊”：

总体而言，ELS 能够以 90%的平均准确率与训练好的扩散模型的输出完全匹配。

坎姆称，这个结果“在机器学习中闻所未闻”。

研究的结果似乎证明了他们的猜想：一旦加入局部性限制，“创造力”就会自动产生；它完全自然地来自于系统动态。

也就是说，正是那些在去噪过程中限制扩散模型注意力范围的机制——迫使它们专注于单个图像区块，而不管这些区块最终在成品中的位置——反而成就了它们的创造力。

扩散模型中出现的“多余手指”现象同样如此，这正是模型过度专注于生成局部像素区块、而缺乏整体背景认知的直接副产品。

这个研究展示了扩散模型的创造力可被视为去噪过程本身的副产品，且这一过程可被数学形式化，并能以前所未有的高度准确性预测。这几乎就像神经科学家将一群人类艺术家放入核磁共振成像仪中，发现他们创造力背后存在一个可被写成一组方程的常见神经机制一样，无疑是可以被称作“伟大”的。

可是，这个解释是万无一失的吗？答案是否定的。

额外的问题：不利用局部性和等变性的模型似乎也表现出创造力

尽管坎布和冈古利的论文阐明了扩散模型创造力的机制，但仍有一些疑惑亟待解决：

例如，大型语言模型和其他AI系统似乎也表现出了创造力，但它们并不利用局部性和等变性。它们的创造力从何而来呢？

即便如此，这个发现依然具有很高的价值，就像是前面提到的，将扩散模型和神经科学的类比可能超越了单纯的隐喻：两位物理学家的研究也可能为人类思维的“黑箱”提供洞察。

“人类和 AI 的创造力可能并没有那么不同，”佐治亚理工学院的机器学习研究员本·胡佛（Ben Hoover）表示，“我们根据我们所经历、所梦想、所见、所听或所渴望的事物来组合事物。AI 也只是从它所见和被要求做的事情中组合基本构件。”

根据这种观点，人类和人工智能的创造力都可能根本植根于对世界的理解不完整：我们都在尽力填补知识的空白，时不时就会产生既新颖又有价值的东西。

也许，这就是我们所说的创造力。

参考链接：

https://www.quantamagazine.org/researchers-uncover-hidden-ingredients-behind-ai-creativity-20250630/

论文：https://arxiv.org/abs/2412.20292

本文来自微信公众号“量子位”，作者：不圆，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

物理学家靠生物揭开AI创造力来源：起因竟是“技术缺陷”

事情的起因：算法的独特创造力

惊人的发现：现实与AI的“多余手指”共性

证明的方法：只优化局部性和等变性

额外的问题：不利用局部性和等变性的模型似乎也表现出创造力

最近内容

下一篇