Nano Banana 2发布,图像生成下半场比的是“世界知识”

字母AI·2026年02月27日 16:05
谷歌深夜发布Nano Banana 2,图像生成这块真要变天了

进入2026年以后,很少有人再提起图像生成模型,行业内的焦点全在agent身上。

图像生成模型,似乎已经成为“上一个时代”的故事。大多数从业者的共识是,图像生成的技术路线已经基本定型,剩下的只是工程优化和成本控制。

国际调研机构Fundamental Business Insights在《AI图像生成器市场规模和份额预测》中提到,2024年全球市场规模为4.1024亿美元,2025年为4.785亿美元,2026年为5.4136亿美元。

由此可见,图像生成模型市场已然是一个成熟稳定,且想象空间比较小的市场。

可就在这个节骨眼上,谷歌拿出了Nano Banana 2。

这是用同样提示词生成的图片,可以看到,Nano Banana 2在呈现图片的方式上,已经和Nano Banana Pro呈现出了明显的区别。

因为这不是那种简单的版本迭代。

谷歌在发布当天就宣布,这个新模型将立即取代之前的所有版本,成为 Gemini、谷歌搜索、AI Studio等所有产品中的默认图像生成模型,最让人诧异的是,就连谷歌自己的AI编程工具Antigravity也对Nano Banana 2完成了接入。

为啥谷歌突然“All-in”?

在过去一段时间里,用户一直面临着一个两难选择,想生成4K分辨率的图片就需要等很久,想立刻生成图片,就只能找低分辨率的模型。

而Nano Banana 2又快又好。

谷歌认为,在agent时代,图像生成依然是一个值得重仓投入的战场。

01 Nano Banana 2的特点都有什么?

Nano Banana 2最大的特点就是快,它能够在4-6秒内完成4K分辨率图像的生成。

谷歌的Gemini系列一直维持着两条产品线:Pro追求性能,Flash追求效率。

但将这套架构迁移到图像生成领域,并非简单的模型压缩。图像生成的计算密集度远高于文本生成,一张2K分辨率的图像包含的信息量,相当于数千个文本token。

如何在不牺牲视觉质量的前提下提升推理速度,这是一个工程难题。

Nano Banana 2的解决方案是采用了分层生成策略。

模型首先在较低分辨率下完成场景理解、构图规划和物理关系推理,然后再通过高效的上采样管道将图像提升至2K甚至4K分辨率。

这种“先思考,后渲染”的流程,让模型能够在保持Pro级别的一致性和细节质量时,降低计算成本。

除了速度,Nano Banana 2还引入了“世界知识”这个概念。

传统的图像生成模型,本质上是一个强大的视觉模式匹配器。它们在海量图像数据上训练,学会了“什么样的画面看起来真实”,但并不真正理解画面中的物理规律、地理特征或文化背景。

比如说你要求生成“巴黎铁塔在雨天的景象”,它可能生成一张看起来不错的图片,但铁塔的结构细节、巴黎特有的建筑风格、雨天的光线特征,都可能是模糊或错误的。

Nano Banana 2的不同之处在于,它直接继承了Gemini大语言模型的世界知识库,并且能够实时调用谷歌图像搜索作为“视觉参考库”。

也就是说当你要求生成某个真实地点的场景时,模型不仅知道这个地点的地理位置、气候特征、建筑风格,还能检索相关的真实照片作为视觉基准,从而生成更加准确的图像。

在谷歌的“Window Seat”演示中。它能够根据用户指定的任何地点和当前的实时天气数据,生成该地点窗外的逼真景观。

举个例子,《哈利波特》中通往霍格沃茨的9¾站台位于英国的国王十字车站(King's Cross station)。在Window Seat中输入对应车站,窗户的样式输入温馨咖啡馆,外面的天气指定为瓢泼大雨,Nano Banana 2就会生成以下一幕。

把“世界知识”注入到Nano Banana 2里,其实就是将大语言模型的推理能力与图像生成的渲染能力结合起来的产物。

模型在生成图像之前,会先进行一次“语义推理”,理解提示词中涉及的真实世界概念,然后再将这些概念转化为视觉元素。

在图像生成领域,文字渲染一直是一个公认的难题。无论是Stable Diffusion、Midjourney还是早期的DALL-E,生成的图像中如果包含文字,往往会出现字母错位、拼写错误、字体混乱等问题。

这个问题的根源在于,传统的扩散模型将文字视为视觉纹理的一部分,而不是具有语义结构的符号系统。

Nano Banana 2在文字渲染上取得了显著进步。根据官方说明,这一代模型能够“更可靠地渲染文字”,支持多语言文本,并且能够保持字体的清晰度和风格一致性。

这个能力的提升,来自于模型对文字的“双重理解”。Nano Banana 2既通过Gemini的语言模型能力,理解了文字本身的语义内容,也通过图像生成的渲染能力理解文字的视觉呈现规律。

我让Nano Banana 2设计了一个“字母AI”的Logo,它就能很好展示出每一个字,并且还用电路板这个视觉元素来强化AI的概念。

02 Nano Banana 2背后的技术是什么?

Nano Banana 2 的另一个重要特性,是它的“对话式编辑”能力。这的确不是一个新概念,但实际用起来效果要比以往好很多。

Nano Banana 2现在能够做到,完全使用对话来进行图片编辑,比如“把背景换成日落”、“把这个人的衣服改成蓝色”、“去掉左边的那棵树”。

这种交互方式的关键,在于模型能够在多轮对话中保持对图像的“记忆”。当你在第三轮对话中说“把刚才那个蓝色衣服改回红色”时,模型需要知道“刚才那个蓝色衣服”指的是第二轮编辑中被改成蓝色的那件衣服。

这种上下文追踪能力,叫做“思维签名”(Thought Signatures)。

简单来说,当模型生成图像时,它内部会进行一系列思考,思维签名就是每一步思考的标签。在多轮对话编辑图像时,你把上一轮的思维签名传回给模型,它就能记住之前的构图逻辑、光影关系和设计意图,从而实现连贯的局部修改—。

当你要求对已有图片进行修改时,那么模型就会用思维签名来理解原始图像的整体结构,做出合理的调整而不破坏画面的一致性。

前文提到的一致性,是目前图像生成模型最大的难题之一。

Nano Banana 2支持最多14张参考图像的混合使用,其中可以包括最多5张人物角色图像和最多6张物体图像。

模型能够从这些参考图像中提取视觉特征,并在新生成的图像中保持这些特征的一致性。

比如Nano Banana 2官方发的图片,将一个香蕉和恐龙玩偶结合,就得到了一个以香蕉当作身体的恐龙玩偶。

以及,我们不妨来看看Nano Banana 2和GPT的对比,同样的提示词下,GPT带有明显的AI生成感。Nano Banana 2生成的图片更真实一些。

GPT:

Nano Banana 2:

同时,Nano Banana官方还放出了一些由Nano Banana 2生成的超长图片。

03 相较于其他模型,Nano Banana 2的优势是什么?

Nano Banana 2是一个非常均衡的图片生成模型,它又有速度,又有质量,关键还便宜。

根据谷歌官方给出的信息,Nano Banana 2生成1k图的价格大约为0.067美元,相当于不到5毛钱。2K图片为0.1美元,约7毛钱。4K图片为0.15美元,大约1块钱。这个价格比Nano Banana Pro便宜很多。

Pro版本的优势在于极致的复杂场景把控、超写实光影渲染和小众艺术风格还原,适合专业视觉设计师、影视概念设计师等对画质有极致要求的用户。

Nano Banana 2用画质上限的稍许让步,换来了显著的效率提升。Nano Banana 2的定价更符合普通创作者,以及那些需要快速迭代、大批量生成的实际业务需求。

Midjourney依然是艺术创作的天花板。它的审美上限和风格化能力在行业内无人能及,特别是在生成具有电影质感、绘画笔触的艺术作品方面表现出色。

V7版本的生成速度约为20秒/张,在复杂场景下可能更长。

但Midjourney的短板也极其明显,它没有对话式编辑功能,无法精准控制真实世界元素(如特定地点的准确建筑风格、实时天气条件), API开放度极低,且主要通过Discord 界面操作,不适合企业级集成。

此前,在一项包含50多个提示词的对比测试中,Nano Banana Pro的生成速度是Midjourney的10倍以上,Nano Banana 2只会更快。

另外一大图像生成模型就是Stable Diffusion 3。它的优势是开源、可本地部署、自定义程度高,这对于有技术能力和数据隐私需求的开发者来说是重要优势。

它还支持LoRA微调、ControlNet等高级控制功能,可以针对特定需求进行深度定制。可以说,只要你技术能力够高,那么Stable Diffusion 3绝对是最好的选择。

但Stable Diffusion 3,需要配置本地环境、理解复杂的参数设置、自行优化提示词。

而且在原生能力方面,Stable Diffusion 3的文字渲染准确度在学术评测中得分仅为1.25-1.95(满分 5 分),远低于Nano Banana 2。

此外,它的生成速度、事实准确性、对话式编辑能力也全面落后于Nano Banana 2。

当然,Nano Banana 2并非完美无缺。在极致的艺术风格化创作、超复杂场景的光影渲染上,它和Nano Banana Pro以及Midjourney这样的产品,依然存在差距。

在多轮对话编辑方面,虽然模型支持最多5个角色的一致性维护,但在一些特定的场景,仍然会出现细微变化。而当对话进行多轮次后,这些细微的变化也会累积在一起。

同时,对于小众冷门的地点、物体,“世界知识”的效果也会有所折扣。

但不可否认的是,Nano Banana 2给整个文生图行业带来新的启示,未来的AI图像生成,不再是单纯的“纹理匹配”,而是“大语言模型推理能力 + 视觉渲染能力 + 检索增强事实准确性”的深度融合。

文生图工具终将从“画画的机器”,变成真正懂需求、懂世界的视觉创作助手。

本文来自微信公众号“字母AI”,作者:苗正,36氪经授权发布。

+1
6

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业