画数独、烧蜡烛都不翻车了？浙大&阿里让AI先三思再下笔

量子位·2026年05月26日 15:14

从数据到算法，构建可执行的思维链

当下视觉生成正陷入一个能力错位困境——

扩散模型的像素画质已接近完美，但一遇到需要逻辑推理的生成任务就频频翻车。

让模型画 “数独解完后的样子”、“蜡烛燃烧6小时后的状态”，开源模型要么出现逻辑幻觉，要么无法把文字指令转化为精准视觉操作，形成难以跨越的执行鸿沟。

反观Nano Banana、GPT-Image等闭源模型，早已具备成熟的推理驱动生成能力。

开源模型与闭源模型的差距，真的是生成器不够强吗？

浙江大学联合阿里巴巴的研究团队给出答案：问题不在 “手”，而在缺少独立的 “大脑”。

他们提出的Unified Thinker，将思考与执行彻底解耦的通用推理核心，让图像生成从 “端到端黑盒映射”，升级为 “模块化思维链规划”。

这项工作已被ACL 2026正式接收为Oral。

推理不应只是文本空间的“自嗨”

今天多模态生成模型的问题，很多时候并不出在会不会想，而是出在想完之后能不能落到画面里。

谁在画面里、位置关系是什么、动作如何发生、前后状态如何变化、哪些信息要被视觉化表达。

这时，如果推理仍然停留在文本空间里自我循环，很容易出现一种尴尬：语言上听起来很合理，生成出来却完全不是那么回事。

现有的多模态生成路径，大致受困于两类技术路线。

一是试图在单一网络中兼顾理解与生成的大一统模型，这种紧耦合常导致训练不稳定，且生成质量与逻辑推理难以兼得。

二是使用通用LLM作为Planner的外挂模式。然而，这又会面临严重的语义-视觉错位（Semantic-Visual Misalignment）问题。

LLM认为合理的描述，扩散模型可能因缺乏相应的视觉先验而无法执行。

△

Unified Thinker的核心洞察在于——

推理不应只是文本空间的逻辑推演，而必须是“可执行的计划（Executable Plan）”。

研究者设计了一个独立的Thinker模块，它不直接生成像素，而是充当大脑，负责将模糊的用户意图分解为分层、结构化、且对下游生成器友好的中间表示。

而Generator则作为双手，专注于高精度的像素合成。

这种解耦设计不仅允许开发者单独升级大脑的逻辑能力，更实现了逻辑能力在不同生成底座（如Qwen-Image, BAGEL等）间的通用化迁移。

从数据到算法：构建可执行的思维链

为了让“思考”真正落到画面里，研究团队没有只停留在模型结构层面，而是先从最底层的数据工程开始改造。

他们构建了一个包含4万条样本的数据集：HieraReason-40K。

它和传统图文对最大的区别在于，引入了结构化推理轨迹（Structured Reasoning Trace）。

也就是说，模型在生成或编辑图像前，要先走完一套固定思考链路：意图拆解→逻辑具体化→视觉转译。

先判断用户真正想改什么，再把抽象需求拆成具体视觉元素，最后转化成下游生成器能执行的指令。

不仅如此，在图像编辑场景中，研究者还提出了一个“黄金法则”——

严禁在Prompt中描述未改变的区域，这一策略极大减少了扩散模型在编辑过程中的语义漂移，确保生成过程精准聚焦。

在优化阶段，仅靠监督微调（SFT）难以保证推理结果对生成的实际增益。

为此，Unified Thinker引入了基于GRPO算法的创新双阶段强化学习方案。

在推理导向 RL阶段，Thinker产生的多条推理路径直接由生成图像的视觉质量打分反馈，这迫使模型放弃空洞的辞藻，转而学习生成“视觉可执行”的指令。

在生成导向 RL阶段，则通过随机性采样优化生成器对复杂指令的保真度。这种双向反馈机制，真正实现了脑与手的深度协同。

迈向“先规划、后生成”的演变

实验结果也验证了这种解耦架构的价值。

在更考验推理能力的基准测试中，Unified Thinker表现尤其突出——

比如侧重推理图像编辑的RISEBench，以及知识密集型文生图任务WiseBench，都取得了明显提升。

此外在涉及时间尺度演演化（如预测物体陈旧化过程）与复杂空间定位的任务上，其表现大幅优于现有的开源基线模型，并表现出足以媲美闭源模型的指令遵循能力：

更具实用价值的是，这套架构具备较强的泛化性。

作为一种即插即用的推理核心，Thinker的逻辑规划能力可以跨模型迁移。

实验显示，即便将其挂载到未参与训练的生成底座上，也能有效提升后者的逻辑执行准确度。

从更长远的视角看，Unified Thinker的提出，可以视为视觉生成从“概率拟合”走向“逻辑导向”的一次尝试。

过去，模型更多依赖特征匹配和随机采样来生成画面；而现在，通过引入可解释、可干预的结构化推理轨迹，生成过程多了一层前置规划，也因此具备了更高的确定性。

这也为未来构建具备自主决策能力的生成式智能体（Generative Agent），提供了一种可行的架构思路。

可以预见，随着推理成本进一步优化，“先规划、后生成”将成为提升视觉生成质量的一条重要路径。

参考链接：

[1]论文链接：https://arxiv.org/pdf/2601.03127

[2]代码仓库：https://github.com/LivingFutureLab/UnifiedThinker

[3]数据链接：https://huggingface.co/datasets/demo911/HieraReason_40K

本文来自微信公众号“量子位”，作者：浙江大学&阿里巴巴团队，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

画数独、烧蜡烛都不翻车了？浙大&阿里让AI先三思再下笔

推理不应只是文本空间的“自嗨”

从数据到算法：构建可执行的思维链

迈向“先规划、后生成”的演变

最近内容

下一篇