Nano Banana Pro 要上天
谷歌最近动作不断:前脚刚抛出 Gemini 3 和 Antigravity,后脚 Nano Banana Pro 也在 Vertex AI 里上线了,模型名叫 gemini-3-pro-image-preview。
简单测了一圈之后,我们觉得它不只是“会画图”这么简单,生图质量很稳,更有意思的是,它看起来已经开始会推理了。
模型实测:
看手相做几何题,Nano Banana Pro 还有什么不能做的?
测试 1:跨次元的视频会议
我们先来一个简单的测试,让现实 AI 界五大巨头和动画界的光头共同开一场视频会议。
prompts:
"A realistic HD screenshot-style image of a video conference interface, similar to Zoom, in 16:9 horizontal format. There are six participants, each in their own video tile: 1.Sam Altman, short hair, blue eyes, wearing a simple T-shirt or casual shirt, focused expression.2. Elon Musk, slightly slicked-back short hair, wearing a dark T-shirt or jacket, a faint smile. 3. Sundar Pichai, black-rim glasses, beard, wearing a dark suit with a light shirt, looking at the screen.4.Satya Nadella, bald, thin-frame glasses, business-casual suit, gentle expression.5. Mark Zuckerberg, short slightly curly hair, simple dark T-shirt, looking a bit tense but focused.6.the character in the uploaded image,turn the head toward the upper right.The interface shows classic video call UI elements: bottom bar with mute, stop video, share screen buttons, and a simple chat panel on the right side. Overall style: realistic, high resolution, soft lighting, modern tech atmosphere."
这次任务有几个难点。首先是现实人物的生成。像奥特曼、马斯克这种大众极其熟悉的形象,只要跟真实长相稍微不符,就会立刻穿帮。但 Nano Banana Pro 基本还原了每个人物的特征,细节到位,已经接近“以假乱真”的程度。
第二个难点是跨次元融合。我上传的是一张动漫人物图,Nano Banana Pro 并没有粗暴地把它拉成写实风格,而是保留了角色原本的二维质感,让这个二次元角色出现在真实视频会议画面中时,形成了一种既突兀又合理的效果。
最后,我在提示词里埋了一个小坑,让这位动漫人物把头转向右上方,避免 Nano Banana Pro 通过截图等方式浑水摸鱼。结果可以看到, 其不仅正确地完成了转头动作,说明不是截图。还理解了“视频会议画面是镜像”的这一点,从我们观众的视角看过去,角色实际上是转向了左上方。
我们再来看一下其它细节,Nano Banana Pro 还在除了奥特曼之外的人身后加上了对应公司的 logo,好像在说“我知道我生成的人物是谁”。
右下角的对话也能证明这一点,各自都在讨论与自己相关的话题,而且没有拼写错误。
那我就很好奇,Nano Banana Pro 对文字的理解到达了什么程度?
测试 2:这菜单你不能细看
我们尝试让 Nano Banana Pro 生成“英文、中文、日文和俄罗斯语”四种菜单。
promtps:
"modern western bistro menu,vertical A4 layout, clean grid design,warm beige background with subtle paper texture,all text in English only, no other languages,sections as bold headings: Signature Dishes, Starters, Mains, Sides, Drinks,elegant handwritten-style restaurant title at the top,readable body font for dish names and prices,neat list layout with enough white space,small food illustrations in the corners: steak, salad, bread, wine glass,minimalist icons, soft warm lighting,high resolution, 4k, printable, no watermark, no logo."
"Japanese izakaya menu,modern Japanese style, vertical A4 layout, clean grid,warm beige background, soft paper texture,all text in Japanese only, no English,sections as bold Japanese headings:おすすめ, 焼き物, 揚げ物, ご飯もの, 飲み物,elegant handwritten-style Japanese title at the top,readable Japanese body font,neatly aligned dish names and prices, plenty of white space,small illustrations in the corners: 串焼き, 枝豆, たこ唐揚げ, 日本酒グラス,minimalist icon style, cozy warm lighting,high resolution, 4k, printable, no watermark, no logo。"
"Russian home-style cafe menu, cozy and traditional,vertical A4 page, clean and simple grid layout,warm beige background with gentle paper texture,all text in Russian only, no English,sections as bold Russian headings:Фирменные блюда, Горячие блюда, Закуски, Гарниры, Напитки,elegant handwritten-style Russian title at the top,clear serif body font for dish names and prices,neatly organized lists with generous white space,small corner illustrations: bowl of borscht, dumplings, slice of rye bread, vodka glass,minimalist icons, soft warm lighting,high resolution, 4k, printable, no watermark, no logo."
Chinese Sichuan restaurant menu, modern Sichuan style, vertical A4 layout, clean grid design, warm beige background with subtle rough paper texture, menu hanging on the interior wall of a cozy Sichuan restaurant, soft spotlight from above and natural shadows, only Simplified Chinese text, bold section headings: 招牌川菜, 热菜, 凉菜, 主食, 饮品, top title in elegant handwritten Chinese, readable Chinese body font, dish names + prices neatly listed, small corner illustrations: 辣椒、花椒、蒜瓣、红油小碟, minimalist icons, warm ambient restaurant lighting, slight vignette, high resolution, 4k, printable, no watermark, no logo。
这四份菜单,可以很容易的看出来用了哪国的语言,但,你不能细看。
比如使用中文的四川餐馆菜单,我们可以看到标题,大正宗川味小馆、以及分类词向招牌川菜、凉菜、主食等,还原的很完美。但仔细看具体的菜品,就会露出 AI 马脚,比如“蒜泥”两个字很虚,58 元的菜基本认不出是什么中文。可以猜测,Nano Banana Pro 能很好的还原提示词中的文字,但对提示词之外,AI 自己生成的文字把控能力不强。
为了验证这个想法,我们将菜单所有的中文输入进 promtps 中。
prompts:
Sichuan restaurant menu poster,vertical A4 layout hanging on a textured wall,warm spotlight from above, soft shadow under the menu,light beige paper with subtle fiber texture,modern Sichuan style, clean grid layout,small corner illustrations: chili peppers, Sichuan peppercorns, garlic cloves,handwritten-style Chinese title, clear body font,only Simplified Chinese text, no English,cozy indoor lighting, slight vignette, natural restaurant ambience,high resolution, 4k, printable, no watermark, no logo.Menu text (Chinese only):招牌川菜:沸腾水煮鱼(招牌) ¥128 歌乐山辣子鸡 ¥88 毛血旺(精品) ¥98 夫妻肺片 ¥78 口水鸡 ¥68 热菜:宫保鸡丁 ¥58 回锅肉 ¥62 麻婆豆腐 ¥42 鱼香肉丝 ¥48 蒜泥白肉 ¥52 凉菜:拍黄瓜 ¥22 凉拌木耳 ¥28 川北凉粉 ¥26 口水茄子 ¥32 皮蛋豆腐 ¥24 主食:四川担担面 ¥28 钟水饺 ¥26 赖汤圆 ¥22 红油抄手 ¥24 米饭 ¥5 饮品:酸梅汤 ¥18 王老吉 ¥12 青岛啤酒 ¥15 热茶(壶) ¥38
我们可以看到,虽然部分字体有点虚,但基本还原了 promtps 中的中文。
测试 3:老中医+老先生,google 用了多少中国文化素材
除了中文,中国还有不少独有的图像,像看手相、算命、看穴位等等,Nano Banana Pro 也能像中文那样做得好吗?
prompts:给下面的手看看手相。
可以看到 Nano Banana Pro 像一个算命先生一样清晰的画出手上的生命线、感情线和智慧线。然而,Nano Banana Pro 并没有学到家,把智慧线和生感情线画反了。
再来看一下老中医擅长的领域,足底穴位。
prompts:"我想要对肾好,该按哪里"
Nano Banana Pro 不但知道对肾好要按涌泉穴,还正确指出涌泉穴的位置。
测试 4:哪里不会拍哪里
nanobanana 就有能拍照解题的潜力,但正确率不高,我们来试一下 Nano Banana Pro 的实力如何。
我们在网上找了两道题,一道代数题、一道几何题。
prompts:这题答案是什么?
由于作者本人数学已废,我们就让 GPT5 来判断一下 Nano Banana Pro 答的对不对。
首先是第一题代数题,GPT5 的回答是:这题在「初中数学默认前提:a,b,c 为实数,且 a,b\ge 0」的条件下,是对的。唯一可以挑的刺是:AM-GM 需要 a,b\ge0 的前提,题目没写,但在七年级题目里一般是默认的,所以在这个教学语境下,这份解答是成立的。
再看第二道更加复杂的几何题,GPT5 计算后也给出了和 Nano Banana Pro 一样的答案。
从这几轮折腾下来看,Nano Banana Pro 已经很难再被简单归类为一个“画图工具”了。它一边在像素层面稳稳地还原人物五官、菜单排版、界面细节,一边又在语义层面做着不那么“美工”的工作:知道谁是哪个大厂 CEO,能分清菜单上哪些文字必须一字不差照抄、哪些内容可以自由发挥。遇到看手相、找穴位、做几何题这种需要结构理解的任务,也不是随便糊一张图,而是先想清楚“这条线该从哪起、大致是什么角度”“这个高要垂到哪条边上”,再动手绘制。
它当然还不完美,会把智慧线画反,也会在俄文里冒出几串诡异单词,但你能明显感觉到,它已经在用“推理 + 生成”的流程去理解 prompt 和图片,而不是机械地把词表映射成纹理。对一个主打图像生成的模型来说,这种能力的边界正在悄悄往“世界模型”方向挪:它不只是知道“像什么样子画出来”,还在内部搭建一个粗糙的世界观,谁和谁属于同一个会议室,菜单应该长在什么纸张上,力学和几何关系大概怎么运转。
这也是为什么它让人既兴奋又有点警惕:当一个生图模型开始具备对场景、人物关系、物理与几何结构的统一理解,它离“看懂世界再画世界”就不远了。下一步,当你对它说“帮我画一道我看不懂的题的解题过程”,它很可能先在自己的世界模型里把题做完,再顺手把推理过程以一张图的方式展现给你。
本文来自微信公众号“硅星GenAI”,作者:董道力,36氪经授权发布。















