画数独、烧蜡烛都不翻车了?浙大&阿里让AI先三思再下笔

量子位·2026年05月26日 15:14
从数据到算法,构建可执行的思维链

当下视觉生成正陷入一个能力错位困境——

扩散模型的像素画质已接近完美,但一遇到需要逻辑推理的生成任务就频频翻车。

让模型画 “数独解完后的样子”、“蜡烛燃烧6小时后的状态”,开源模型要么出现逻辑幻觉,要么无法把文字指令转化为精准视觉操作,形成难以跨越的执行鸿沟。

反观Nano Banana、GPT-Image等闭源模型,早已具备成熟的推理驱动生成能力。

开源模型与闭源模型的差距,真的是生成器不够强吗?

浙江大学联合阿里巴巴的研究团队给出答案:问题不在 “手”,而在缺少独立的 “大脑”。

他们提出的Unified Thinker,将思考执行彻底解耦的通用推理核心,让图像生成从 “端到端黑盒映射”,升级为 “模块化思维链规划”。

这项工作已被ACL 2026正式接收为Oral。

推理不应只是文本空间的“自嗨”

今天多模态生成模型的问题,很多时候并不出在会不会想,而是出在想完之后能不能落到画面里

谁在画面里、位置关系是什么、动作如何发生、前后状态如何变化、哪些信息要被视觉化表达。

这时,如果推理仍然停留在文本空间里自我循环,很容易出现一种尴尬:语言上听起来很合理,生成出来却完全不是那么回事。

现有的多模态生成路径,大致受困于两类技术路线。

一是试图在单一网络中兼顾理解与生成的大一统模型,这种紧耦合常导致训练不稳定,且生成质量与逻辑推理难以兼得。

二是使用通用LLM作为Planner的外挂模式。然而,这又会面临严重的语义-视觉错位(Semantic-Visual Misalignment)问题。

LLM认为合理的描述,扩散模型可能因缺乏相应的视觉先验而无法执行。

Unified Thinker的核心洞察在于——

推理不应只是文本空间的逻辑推演,而必须是“可执行的计划(Executable Plan)”。

研究者设计了一个独立的Thinker模块,它不直接生成像素,而是充当大脑,负责将模糊的用户意图分解为分层、结构化、且对下游生成器友好的中间表示。

而Generator则作为双手,专注于高精度的像素合成。

这种解耦设计不仅允许开发者单独升级大脑的逻辑能力,更实现了逻辑能力在不同生成底座(如Qwen-Image, BAGEL等)间的通用化迁移。

从数据到算法:构建可执行的思维链

为了让“思考”真正落到画面里,研究团队没有只停留在模型结构层面,而是先从最底层的数据工程开始改造。

他们构建了一个包含4万条样本的数据集:HieraReason-40K

它和传统图文对最大的区别在于,引入了结构化推理轨迹(Structured Reasoning Trace)

也就是说,模型在生成或编辑图像前,要先走完一套固定思考链路:意图拆解→逻辑具体化→视觉转译。

先判断用户真正想改什么,再把抽象需求拆成具体视觉元素,最后转化成下游生成器能执行的指令。

不仅如此,在图像编辑场景中,研究者还提出了一个“黄金法则”——

严禁在Prompt中描述未改变的区域,这一策略极大减少了扩散模型在编辑过程中的语义漂移,确保生成过程精准聚焦。

在优化阶段,仅靠监督微调(SFT)难以保证推理结果对生成的实际增益。

为此,Unified Thinker引入了基于GRPO算法的创新双阶段强化学习方案。

推理导向 RL阶段,Thinker产生的多条推理路径直接由生成图像的视觉质量打分反馈,这迫使模型放弃空洞的辞藻,转而学习生成“视觉可执行”的指令。

生成导向 RL阶段,则通过随机性采样优化生成器对复杂指令的保真度。这种双向反馈机制,真正实现了脑与手的深度协同。

迈向“先规划、后生成”的演变

实验结果也验证了这种解耦架构的价值。

在更考验推理能力的基准测试中,Unified Thinker表现尤其突出——

比如侧重推理图像编辑的RISEBench,以及知识密集型文生图任务WiseBench,都取得了明显提升。

此外在涉及时间尺度演演化(如预测物体陈旧化过程)与复杂空间定位的任务上,其表现大幅优于现有的开源基线模型,并表现出足以媲美闭源模型的指令遵循能力:

更具实用价值的是,这套架构具备较强的泛化性

作为一种即插即用的推理核心,Thinker的逻辑规划能力可以跨模型迁移。

实验显示,即便将其挂载到未参与训练的生成底座上,也能有效提升后者的逻辑执行准确度。

从更长远的视角看,Unified Thinker的提出,可以视为视觉生成从“概率拟合”走向“逻辑导向”的一次尝试。

过去,模型更多依赖特征匹配和随机采样来生成画面;而现在,通过引入可解释、可干预的结构化推理轨迹,生成过程多了一层前置规划,也因此具备了更高的确定性。

这也为未来构建具备自主决策能力的生成式智能体(Generative Agent),提供了一种可行的架构思路。

可以预见,随着推理成本进一步优化,“先规划、后生成”将成为提升视觉生成质量的一条重要路径。

参考链接:

[1]论文链接:https://arxiv.org/pdf/2601.03127

[2]代码仓库:https://github.com/LivingFutureLab/UnifiedThinker

[3]数据链接:https://huggingface.co/datasets/demo911/HieraReason_40K

本文来自微信公众号“量子位”,作者:浙江大学&阿里巴巴团队,36氪经授权发布。

+1
4

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

AI班级宠物,开始拿捏小学生

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业