谷歌偷偷搞了个神秘模型Nano-Banana?实测:强到离谱,但有3大硬伤

机器之心·2025年08月26日 18:00
Nano-Banana火了,冒出一堆假网站,李鬼和李逵傻傻分不清。

神秘AI模型Nano-Banana火了,冒出一堆假网站,李鬼和李逵傻傻分不清。

最近,AI 社区又冒出一个神秘的图像生成和编辑模型,名叫 Nano-Banana。

起初它在 LMArena 平台的「Battle」模式中被发现,但未在公开排行榜上列出,也没有官方开发者明确声称其归属。

不过很多网友循着蛛丝马迹,猜测这可能是谷歌的研究模型

上周二,谷歌 AI Studio 产品负责人 Logan Kilpatrick 在 X 上发布了一个香蕉表情符号。

谷歌 DeepMind 产品经理 Naina Raisinghani 也发布了一张与意大利艺术家 Maurizio Cattelan 2019 年创作的胶带粘贴香蕉艺术作品类似的图片。

再加上谷歌过去曾将其较小的模型称为「Nano」,而且其生成图像的质感与 Google 的 Imagen 或 Gemini 系列相似。

以上种种,似乎都在暗示它出自谷歌之手。

该模型不仅在文本编辑、风格融合和场景理解等方面表现更优,还可以上传两张图片、输入提示词将其中的元素融合。

比如,上传一摞书和卧室床头柜的图片,输入提示词「Flip stack of books to be upright and put on table between two bookends.」

它能精准理解复杂文本提示,将横放的三本书立起来,并加上书挡摆放到柜子上。

上传一张模特照再加上一张棒球帽子图,输入提示词:「Put the baseball hat on the woman.」

棒球帽上有着复杂的文字和图案刺绣,Nano-Banana 编辑后的图片保留了帽子上的所有细节,同时光线、视角和构图也能一致性。

在产品照片、场景搭建图、广告等商业场景下,Nano-Banana 的表现也稳得一批。

当然,它也并非完美无缺,在某些情况下,Nano-Banana 生成的图像可能出现反射、光照逻辑或物体位置不一致等视觉问题,人物的手指也偶尔出现畸形的情况。

如果细看上图中生成的书籍,就会发现其中的瑕疵:书名出现了「鬼画符」。

由于尚无官方 API 或正式的官网链接,我们只能通过 LMArena 随机体验该模型。

换句话说,每次都得靠运气才能遇到 Nano Banana,体验很不稳定。

更搞笑的是,网上出现了一堆假网站,声称提供 Nano Banana 服务,让不少网友李鬼和李逵傻傻分不清。

Nano-Banana 一手测评

我们也来了个一手测评。

打开 lmarena 官网,选择 Battle 模式,可以直接输入提示词进行文生图,也可以上传图片、输入提示词再进行 AI 编辑。

官网链接:https://lmarena.ai/

页面会出现两个匿名模型同时生成图片,只有当我们选出其中生成质量最好的一张图片时,平台才会亮出对战双方的身份。

先来试试文生图效果。

我们输入同样的提示词:Present a portrait-style image in a Polaroid photo shoot style. In the picture, there is a makeup artist with long, loose curly hair, wearing oversized clothing. She has a delicate face and exudes a casual vibe, posing with a peace sign directly at the camera, creating an ultra-free atmosphere. The image has a slight grainy texture, with vibrant and captivating colors,1:1.

第一幅是 Nano Banana 的「作品」,第二幅是 ChatGPT 生成的效果。前者生成的图片背景中有杂乱的眼影盘、指甲油等,更符合提示词中的「化妆师」身份,而且人物的动作、服装细节更自然,手部也没有明显的瑕疵;而后者背景较为单一,大拇指也有些虚化。

再来试试它的图片编辑功能。

上传一张旧金山阿拉莫广场的野餐照片,输入提示词:Add some humanoid robots in the park,make them blend with the environment.

乍一看我们还以为 Nano Banana「罢工」了,直到在画面右侧找到了一个正在走路的类人机器人,它完全融入环境,毫无违和感。

我们上传一张人物摄影照片,让 Nano Banana 进行逆向工程描绘其创作过程。

提示词:Show the set being set up before, the model is sitting up scrolling her phone, there is a woman behind the model fixing her hair, a man up on a ladder, hanging the curtain in the background, revealing the studio behind it.

有网友用 Nano Banana 让碧梨和迈克尔・杰克逊跨时空自拍:

我们也尝试了下。上传马斯克和奥特曼的照片,输入提示词:The two people are happily taking a selfie.

Nano Banana 确实生成了一张自拍照,马斯克的形象、动作也几乎找不出什么问题,只是奥特曼大变样。

为了不「冤枉」它,我们又给了它一次机会,Nano Banana 还是翻车。

难度继续升级。上传小扎、马斯克肖像照和一张风景照,让 Nano Banana 把两个人自然地放在图三中。

Gemini 2.0 flash 生成的效果完全认不出这两个大名人,而 Nano Banana 将二人完美融入图三环境中,不过手指等细节方面还是有瑕疵。

进阶玩法

如果把 Nano-Banana 和谷歌的 Veo3 结合在一起,会碰撞出怎样的火花?

@a16z 合伙人 Justine Moore 就搞了个新工作流,用于制作较长的视频。

下面这个视频是一个游戏或电影中的潜行任务场景,角色从昏暗的博物馆中盗取一幅名画,触发了激光警报。

她还放出了制作教程。提取第一个视频片段的最后一帧,将该帧上传到 lmarena 上的 Nano Banana,提示生成下一个场景,例如「角色转向走廊」,然后将新生成的帧用 Veo 3 进行动画制作。

X 网友 @ZHO_ZHO_ZHO 则发现了 Nano-Banana 另一种好玩的用法 —— 把插画变成手办。

上传一张图片,输入提示词:turn this photo into a character figure. Behind it, place a box with the character’s image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on it. Make the PVC material look clear, and set the scene indoors if possible.

据该博主测评,Nano-Banana 生成的图几乎没有 AI 味,五官和细节都保留得很好,真实感十足。

然后再用 Veo3 将其制作为 8 秒视频。提示词:Pick up the figure with both hands and show it from all angles.

底下评论区不少网友也按照上述工作流整活。比如哪吒双手抱拳的:

还有哆啦 A 梦的,正面看哆啦 A 梦的尾巴挺正常,但转个身就大变样:

我们也复刻了下,上传一张 Q 版插画图片,输入以上提示词。

效果如下:

最后打开 Gemini 2.5 Pro,选择 Video,上传生成的图片,输入提示词,静待 1 分钟左右,就能得到一段 8 秒视频。

上周末,谷歌 Veo 3 对所有 Gemini 用户免费开放,供其体验 AI 视频生成功能。

不过,这项免费体验活动只持续到太平洋时间 8 月 24 日晚上 10 点(北京时间 8 月 25 日上午 1 点) 。在此期间,免费用户每天最多可以生成 3 个 8 秒的视频片段,每个视频都包含自动生成的音频。

通常,Veo 3 的视频生成功能仅对 Google AI Pro 或 Ultra 订阅用户开放。Pro 用户每天可生成 3 个视频,而 Ultra 用户的配额为 10 个视频。

感兴趣的朋友也去体验一波吧。

https://x.com/ginacostag_/status/1959234207127134340

https://x.com/venturetwins/status/1957155767888548160

https://x.com/techhalla/status/1959186906115354692

https://x.com/ZHO_ZHO_ZHO/status/1958550998815023573

本文来自微信公众号 “机器之心”(ID:almosthuman2014),编辑:杨文,36氪经授权发布。

+1
4

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

稳定的产品层面的工程,比模型层 SOTA 更能决定真实可用性

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业