
上周,谷歌发布的图像生成与编辑模型 Gemini 2.5 Flash Image,代号Nano-Banana,在上线后迅速在社交平台风靡。
Nano-Banana 以出色的角色稳定性、对自然语言和空间的理解、还有既保质又快速还便宜的生成,热度很快就超过了 Elon 在 X 上每天卖力推荐的 Grok 视频生成。
为什么 Nano-Banana 的图像生成能力如此优越?背后有哪些技术突破?
Google AI Studio 的产品负责人 Logan Kilpatrick,把Gemini团队中和 “Nano-Banana”相关的核心成员 —— Koshik、Robert、Nicole 还有 Mustafa 聚集在一起,进行了一场深度对谈,聊了“Nano-Banana”背后的技术突破,以及对图像生成和 AI 创意的思考。

本文根据 Logan 主持的访谈和 X 上关于 Nano-Banana 的分享整理而成,将带你走进 团队的幕后,理解他们如何做出新的技术突破,还有对图像生成和 AI 创意的思考。
TLDR:
- 交互范式革命 :AI 图像创作正从“编写精确指令”的编程模式,转向“进行自然对话”的协作模式。模糊指令、多轮迭代将成为主流。
- “智能感”是新标准 :衡量一个模型好坏的标准,除了图像质量,更重要的是它是否“聪明” —— 能否理解上下文、创造性地解读意图、甚至给出超越预期的结果。
- 代理指标的重要性 :在复杂的 AI 系统优化中,找到如“文本渲染能力”这样能够反映全局性能的关键代理指标,是实现快速、有效迭代的突破口。
- 分解与迭代的力量 :面对复杂任务,与其追求“一步到位”,不如利用 AI 的快速迭代能力,将任务分解,通过“对话”逐步完善。这是 AI 时代的核心工作方法论之一。
- AI 的终极形态 :未来的 AI 将是“美学”与“事实性”的结合体,既能成为激发灵感的创意伙伴,也能成为制作精准图表、报告的可靠生产力工具,最终目标是成为真正理解世界的 AGI。
超 12000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。
进群后,你有机会得到:
最新、最值得关注的 AI 新品资讯;
不定期赠送热门新品的邀请码、会员码;
最精准的AI产品曝光渠道
01
重新定义图像创作
传统的 AI 图像生成工具就像一个严格的翻译器 —— 你必须用它能理解的"语言"(精确的提示词)告诉它每一个细节。想要一张好图片?你需要写出类似 “A portrait of a man, wearing a yellow banana costume, standing on a Chicago street,photorealistic style, golden hour lighting, 8K resolution...” 这样的"咒语"。
而现在,你可以像和朋友聊天一样与 AI 交流:“给他加个香蕉服”、“再搞笑一点” 或者 "Make it nano"。"Nano Banana" 是这个模型在 LM Arena 上测试时使用的代号,当时谷歌为了保密,给模型起了这个古怪的名字。面对这个充满"黑话"意味的指令,一般的 AI 模型可能会困惑,或者机械地缩小图像。但 Nano-Banana 不仅理解你在说什么,还能理解你没说出来的 —— 语境、情绪、创意意图。
访谈中 Nicole 演示“make it nano”
其实今年 GPT-4o 的原生图像生成模型,就展现了这种能力多模态能力,当时风靡一时的,导致吉卜力风格泛滥成灾。现在 Gemini 凭借其完全内生的多模态和世界理解能力,让这种创作方式和效果跟进一步。
在 LM Arena 上的测试中,大家首先察觉到的就是“角色一致性”的保持,对比之前的版本和其它模型,进步显著。

Indigo 在 LM Arena 上的测试效果(照片到手办的人物一致性)
然后是任意风格的迁移复制,还包括了环境理解与融合。
indigo 用书桌上的手办实拍 转换成漫展现场的真人 cosplay 视频 veo3 生成
新模型也支持多个参考元素的迁移和组合能力

Prompt: A model is posing and leaning against a pink bmw. She is wearing the following items, the scene is against a light grey background. The green alien is a keychain and it's attached to the pink handbag. The model also has a pink parrot on her shoulder. There is a pug sitting next to her wearing a pink collar and gold headphones.
3D 艺术家 Travis Davids 通过参考元素(图片)快速生成组合版的新图。
完全基于理解的复制和重绘能力

-Zho- 的案例:通过线稿来控制参考模特的造型动作生成
出色的空间想象和理解能力(Gemini 在世界模型方向上努力的成果体现)

通过 front 视角生成的俯视图,3D 空间转换合理
在访谈中 Robert 多次强调:“这种迭代创作的过程才是真正的魔力所在。" 速度是关键 —— 每次生成只需要几秒钟,这意味着用户可以毫无心理负担地不断尝试、调整、探索。就像素描时的快速勾勒,你不需要一次就画对,而是通过快速的尝试找到最满意的效果。
02
超越主观偏好:
为“好”图像寻找客观标尺
在团队内部,研究员 Koshik 长期“痴迷”于一个看似边缘的问题:让 AI 准确地在图像中渲染文字。起初,团队里很多人不理解他的执着,甚至觉得他“有点疯狂”。在大家都在追求更逼真的人脸、更绚丽的风景时,为什么要死磕文字渲染这个“小问题”?
但 Koshik 看到了其他人没看到的东西。
“当模型学会处理文字这种结构时,它实际上也在学习如何处理图像中的其他结构。” Robert 在访谈中解释道。这个洞察极其深刻 —— 文字是一种高度结构化的视觉信息,它要求模型在像素层面进行极其精准的控制。一个字母的笔画稍有偏差,人眼立刻就能识别出错误。

Gemini 团队最早泄漏的 Nano-Banana 的生成图片(广告牌文字的生成)
想象一下,要在图像中正确渲染 “Gemini Nano” 这个词,模型需要:
-
• 理解每个字母的精确形状
-
• 保持字符间的正确间距
-
• 确保文字与背景的和谐融合
-
• 控制高频细节的生成质量
这些能力恰恰是生成高质量图像的核心要求。文字渲染因此成为了一个完美的“代理指标”(Proxy metric)—— 一个能够反映模型整体性能的关键指标。
更重要的是,这个指标是客观的、可量化的。不像“美感”这种主观判断,文字要么对要么错,这给了团队一个明确的优化方向。每当他们尝试新的改进时,都可以快速检查:文字渲染变好了吗?如果退步了,说明改动有问题;如果进步了,说明方向正确。
这就像软件开发中的单元测试,或者企业管理中的北极星指标。找到这样一个“牵一发而动全身”的关键点,往往能带来意想不到的突破。
事实证明,Koshik 的坚持是对的。随着模型在文字渲染上的进步,其整体图像质量也在稳步提升。那些原本与文字无关的改进,有时竟然也会提升文字渲染能力,这进一步验证了这个指标的有效性。
03
交错生成:
多模态 AI 的交响乐
"把这个主题用 5 种不同方式转换成 80 年代美国购物中心魅力照“,Nicole 输入了这个复杂的指令。接下来发生的事情,展示了Gemini 2.5-flash-image(Nano-Banana)最革命性的能力:Interleaved Generation(交错生成)。
Nicola 提示生成五张 Logan 的 80 年代美国购物中心魅力照
13 秒后,屏幕上出现了五张风格各异但主角保持一致的复古照片。每张照片不仅有独特的造型和场景,还配有模型自动生成的创意标题:"Arcade King Logan"(街机之王罗根)、"Red Dude"(红衣小子)、"Chill Bro"(休闲兄弟)...
Koshik 解释了背后的机制:"模型是在一个统一的上下文中,一张接一张地生成这些图片。"这意味着什么?
传统的 AI 图像生成是“并行"的 —— 你给定一个指令,模型独立生成多个结果。而Gemini 的方式是”串行“的 —— 生成第二张图时,模型”看到“了第一张图;生成第三张时,它”记得“前两张。这就像一个艺术家在创作系列作品,每一幅都考虑到了整体的协调性和差异性。
Mustafa 深入阐述了这种能力背后的哲学:”图像理解和图像生成就像姐妹。“ 为什么模型能生成好图像?因为它理解图像。为什么它理解图像?部分因为它能生成图像。
他举了一个精妙的例子:当你去朋友家做客,回来后你不会在对话中特意提到"他们有一个普通的沙发" —— 这太平常了。但如果你拍了照片,沙发就在那里。这就是所谓的”报告偏差“(reporting bias)—— 语言倾向于描述不寻常的事物,而忽略日常。
因此,图像和视频成为模型学习世界常识的"捷径"。通过"看",模型学习到了语言中缺失的信息;通过生成,模型验证和深化了自己的理解。这种双向强化创造了一个良性循环。
04
速度的哲学:
为什么快比完美更重要
Logan 在访谈中也分享了自己的一个小故事:他曾用 Gemini 2.0 为女友设计窗帘颜色。当时的一个痛点是,当他只想改变窗帘颜色时,模型有时会“画蛇添足”,把房间里的床或其他家具也改了。
这引出了一个关键的技术挑战:”Pixel perfect editing(像素级精准编辑)“。新模型在这方面有了长足进步,但更重要的不是完美,而是速度。
“即使模型有时不能一次性完美满足要求," Robert 强调,”但因为它生成一张图片仅需几秒钟,用户可以毫无心理负担地调整 prompt,然后快速重新运行。"
Mustafa 将这个理念提升到了方法论的高度。面对一个包含 50 个细节的超级复杂需求,传统模型几乎不可能一次性完成。但有了“交错生成”,你可以将任务分解成 10 个步骤,每步完成 5 个细节。但这对模型的能力有了更高的要求,就是在多轮对话中,也能完全保持前后设计的一致性。
这就像语言模型中的"思维链"(Chain of Thought)—— 通过“花费更多的计算量”和分解步骤,让模型有"时间"和"空间"去思考,从而完成远超其单次处理能力上限的复杂任务。
这也清晰地界定了 Gemini 与谷歌另一款图像模型 Imagen 的差异:
- • Imagen 就像 Photoshop ——专业、强大、目标明确。如果你需要最高质量的、一次性的文本到图像生成,Imagen 是最佳选择。
- • Gemini 则像一个创意总监 —— 它不追求单次的完美,而是通过对话、迭代、探索,帮你找到甚至超越你想象的创意方案。
05
追求“聪明”:
AI 的终极形态
在谈及模型的迭代过程时,Robert 分享了一个有趣的细节:他们真的会去 X(推特)等社交媒体上搜集用户抱怨的失败案例,并将其整理成一个专门的基准测试集。例如,上一代模型在编辑时,有时添加的元素与原图的光影、风格不一致,看起来像是“贴”上去的。这类问题被一一记录,并作为新模型必须攻克的难关。Robert 开玩笑的形容:"我们在从战壕中获取反馈"!
这种来自一线的反馈驱动开发模式,是模型能够精准解决用户痛点的关键。也从侧面验证了 Gemini 确实是 Google 公司内最卷的团队。
Koshik 分享了另一个关键进步(第一小节总结过):新模型在角色一致性上实现了质的飞跃。旧模型或许能在一个固定姿势的角色上添加帽子,但新模型可以从不同角度渲染同一个角色,并且看起来完全是同一个人。这种 3D 空间感知和身份保持能力,对于故事叙述、品牌 IP 塑造等应用至关重要。
案例:图片(Nano-Banana)+ 视频(veo3)

定型一个角色的肖像 就可以用它来生成各种该角色的场景 也支持多角色
定型一个角色的肖像,就可以用它来生成各种该角色的场景,也支持多角色
MetaPuppet 用强大的角色一致性能力,解锁了稳定的视频创作。
视频是 veo3 根据上面的人物场景照片生成
访谈的最后,当被问及“下一步是什么”时,团队给出了一个极富远见的回答。Mustafa认为,终极目标是追求“smartness”(智能感)。他描绘了一个场景:当你向模型发出指令,它有时并不会完全照做,但最终生成的结果却让你惊叹,”我很高兴它没听我的,这比我描述的还要好!"。
这不是错误,而是"智能"的体现。模型不再是被动的执行者,而是拥有某种"审美判断力"的创作者。它能理解你指令背后的真实意图,并以更优的方式实现它。
这种"不听话"的智能触及了 AI 发展的核心问题:什么是真正的智能?是完美地执行指令,还是理解意图并做出更好的选择?
Nicole 从另一个角度补充了对“factuality(事实性)”的追求。她梦想有一天,模型不仅能创作美丽的艺术,还能生成准确无误的图表、信息图和技术示意图。“我的梦想是让这些模型真的能为我制作工作用的幻灯片。”
正如团队成员在访谈结束时的兴奋之情,他们知道自己正站在一个新时代的起点。团队的追求也并不是一个单纯的“图像生成器”,而是一个能够深度融入人类工作与生活,具备理解、判断和创造能力的“智能伙伴”。当 AI 能够理解玩笑、展现创意、甚至"违背"指令以提供更好的方案时,我们与机器的关系将被重新定义。
这不是结束,而是开始。正如 Mustafa 所说,“我们只是刚刚触及表面”。在这个由代码和创意交织的新世界里,"Nano-Banana" 只是第一个惊喜。未来,当 AI 真正成为我们的创意伙伴、智慧助手和灵感缪斯时,今天的一切都将显得如此原始和简单。
案例技巧推荐
参考
访谈中 Nicole 演示“make it nano”[1]
indigo 用书桌上的手办实拍 转换成漫展现场的真人 cosplay 视频 veo3 生成[2]
Nicola 提示生成五张 Logan 的 80 年代美国购物中心魅力照[3]
视频是 veo3 根据上面的人物场景照片生成[4]
Behind the scenes of Google's state-of-the-art "nano-banana" image model[5]
indigo on Twitter / X[6]
Travis Davids on Twitter / X[7]
-Zho- on Twitter / X[8]
MetaPuppet on Twitter / X[9]
引用链接
[1]
Behind the scenes of Google's state-of-the-art "nano-banana" image model: https://youtu.be/H6ZXujE1qBA?si=m74WlkHp5EGab9QR
[2]
indigo on Twitter / X: https://x.com/indigo11/status/1960963252306731294
[3]
Travis Davids on Twitter / X: https://x.com/MrDavids1/status/1960783672665128970
[4]
-Zho- on Twitter / X: https://x.com/ZHO_ZHO_ZHO/status/1961024427350524163
[5]
MetaPuppet on Twitter / X: https://x.com/MetaPuppet/status/1960341933559107824
转载原创文章请添加微信:founderparker
发表评论