首页 抖音热门文章正文

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

抖音热门 2025年08月29日 14:17 1 admin

编辑:定慧 好困

【新智元导读】谷歌最新图像模型nano banana横空出世,它不仅能融合多张图片拼接出全新画面,还能理解地理、建筑与物理结构,甚至将二维地图转化为三维景观。凭借Gemini的世界知识与交错生成技术,模型实现了「有记忆」的多轮创作,带来极高一致性与创造力。nano banana正在重塑AI图像生成的边界,也引发了「AI创意伙伴」未来的无限遐想。


纳尼(°ロ°),怎么AI圈子突然就开始「纳米香蕉革命」了。

谷歌没想到自己发布了一个新的图像模型,直接就引爆了社区!

最近这个香蕉实在太火了,仿佛又回到几个月前的OpenAI的「吉卜力热」盛况。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

图片由nano banana生成,这个超人COS太赞了

但这次谷歌nano banana带来了更多颠覆性的玩法,不像吉卜力只有一个生成风格,估计谷歌都没有想到网友们的创新力量太绝了。

比如你可以最多上传13张图片,然后让nano banana合并起来

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

你能相信上面的图片是AI用下面这些「零件」组合起来的吗?

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

按照谷歌的说法,这次nano banana不仅是一个图像模型,而且具备Gemini强大的世界知识。

这让nano banana的理解能力来到一个新的维度(文章后面有谷歌团队专访,揭秘了模型背后的最新技术路线)

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

既然可以拼接物理世界的物体,那是不是可以「拼接」人物动作?

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

这不就是妥妥的分镜吗?然后网友继续用海螺AI制作了如下短片。

感觉用AI拍电影也不是不可能啊!

由于nano banana拥有Gemini的世界知识,你只需上传现实世界的截图,就能让它为你标注内容。

比如在画面中标注东京塔。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

还可以标注更多建筑。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

左右滑动查看

甚至使用机器人视角,勾勒人物轮廓,这不就是终结者视角吗?赛博朋克味来了!

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

最神奇的是,nano banana可以从「二维地图」看出「三维世界」。

网友们非常喜欢的用纳米香蕉变换谷歌地图「红色箭头看到了什么」.

比如从西边这个角度看过去的金门大桥。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

或者从东边看过去的东京塔。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

更神奇的是,纳米香蕉似乎真的理解了地理中的等高线知识,可以从等高线直接绘制出真实地理地貌。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

甚至以前让我们头痛的工程绘图视角,都能轻松拿捏。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

可以将任意一张图渲染成上、下、左、右、前、后视图。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

甚至可以使用nano banana来给自己定制试衣服,任何元素都可以「穿在」身上。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

不仅不用再穿衣服,连动作都可以直接复刻。

X上网友@ZHO_ZHO_ZHO用人像+动作框架就可以直接完成摄影棚级别的拍摄效果。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

反过来也没问题,可以从图像中,提取现实建筑的物理结构。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

甚至,还可以「逆向」P图,首先把原图改为黑白色线框,然后再选择自己喜欢的颜色,最后给图片重新上色。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

nano banana转化线稿和上色非常的精准

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

当然,脑洞和整蛊是不可能缺席的。

比如让奥特曼穿着衣服来玩鞍马。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

除了可以做出「新的」图片,nano banana还能修复「老」照片。

补充破损、折痕,还能还原被时间抹去的清晰画面。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

由于纳米香蕉nano banana实在太火了,甚至有网友表示,应该给起名字的工程师加薪。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

此前nano banana在LMArena上线后迅速风靡。

最终盲测下,Gemini 2.5 Flash Image成绩一骑绝尘。

谷歌这个nano banana明显不同于之前的图像模型,比如GPT-4o原生图像模型,能力确实上了一个台阶。

纳米香蕉背后是否有新的技术,新的体系引进?

正好,谷歌DeepMind团队刚刚接受了采访,讲述了模型背后的故事。


香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

「纳米香蕉革命」

nano banana幕后首次公开

nano banana项目负责人和研究员接受DeepMind产品负责Logan Kilpatrick播客采访,揭秘了模型背后的技术密码:

  • 模型可以访问多模态上下文,然后生成图像。所以模型可以选择查看之前的图像,并尝试生成与之非常不同的东西。
  • 交错生成的神奇之处在于,它为你提供了一种用于图像生成的新范例……将复杂的提示分解成多个步骤,并在不同的步骤中逐一进行编辑。
  • 未来的发展方向是让模型不仅能生成高质量图像,更能理解深层意图……甚至超越用户指令,提供更有创造性的结果,并确保内容的真实性和准确性。

在谷歌DeepMind的访谈现场,主持人Logan Kilpatrick成了新一代Gemini图像模型的首位「受害者」。

产品经理Nicole上传了他的照片,然后向模型下达了一个看似无厘头的指令:

「拉远镜头,给他穿上一套巨大的香蕉服,脸要露出来。」

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

短短几秒后,结果呈现在屏幕上。

照片里的Logan依然是他,但身上却天衣无缝地套着一件亮黄色的香蕉道具服,背景切换到了芝加哥的街景。

「太有趣了,」Logan惊叹道,「这张照片是在芝加哥拍的,那条街实际上差不多就是那个样子。」

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

「纳米香蕉」是个什么梗


紧接着,Nicole又输入了一个更神秘的指令:「把它变成nano风格。」

「这是什么意思?」Logan一头雾水。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

屏幕上,一个穿着香蕉服的Q版Logan出现了,可爱又精致。

谜底揭晓:原来,「nano banana」(纳米香蕉)是这款新模型在早期匿名测试平台LMArena上使用的代号。

这个模型聪明到能理解这个「内部梗」,并以极富创意的方式执行了指令。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

这种「聪明」的背后,是新模型最核心的技术——原生与交错式生成(Native and Interleaved Generation)

对于传统的图像模型来说,每次编辑都像是一次「失忆」后的重新创作;相比之下,Gemini则像是一位「有记忆」的画家。

也就是,当Gemini进行多轮创作时,一切都在模型的上下文中——它记得上一笔画了什么,也理解对话的来龙去脉。

为了证明这一点,团队展示了另一个酷炫的例子:「把主体变成五种不同的1980年代美式商场风。」

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

模型不仅在短短13秒内生成了五张风格各异但主角高度一致的照片,甚至还贴心地为每张图起了「街机之王」、「酷盖」、「泡商城达人」、「淡定哥」这样充满年代感的标题。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

左右滑动查看

而且,这不仅对角色构建有用,你也可以拍下自己房间的照片,让它帮你设计五种不同的装修风格。

在谷歌内部,已经有很多人用它来重新设计自己的花园和房间了!

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

在推特「差评榜」上淬炼


有趣的是,如此强大的模型,竟然是在网友的各种吐槽中诞生的。

研究工程师Robert坦诚地回忆:「(2.0版本发布后)我们真的就坐在X(推特)上,一条条地看用户的反馈和抱怨。

比如「编辑后图像风格不统一」、「修改了不该改的地方」等等都会收集起来,并制作成一个专门的内部评估基准——一个名副其实的「推特差评榜」。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

在训练过程中,有一个问题曾让研究员Kaushik近乎「疯狂」地执着——文字渲染

「我们曾经在很长一段时间里对他置之不理,」Robert开玩笑说,「觉得这家伙有点疯狂,对文字渲染也太执着了。」

但Kaushik的坚持,最终得到了证明。

具体来说就是,当一个模型能精准地渲染出文字的笔画结构时,它对整个图像的宏观与微观结构的理解力也会随之跃升。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

而这个曾经被忽视的细节,最终也成了模型能力进化的关键信号。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

Gemini x Imagen秘密联姻


那么,新模型是如何在「聪明」(遵循指令)和「好看」(图像质量)之间取得完美平衡的呢?

答案在于一次关键的内部合作:Gemini团队与Imagen团队的强强联合

你可以把Gemini团队理解为模型的「大脑」,他们赋予模型世界知识、强大的逻辑推理和指令遵循能力。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

而Imagen团队,则像是模型的「艺术总监」,他们拥有「被磨练出的、极其敏锐的审美品味」。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

对此,Kaushik分享了一个十分戏剧性的场景:「以前我们觉得一个编辑成功了,只要指令完成了就行。但Imagen团队的同事看到后,会直截了当地吐槽说:这太糟糕了。你怎么会想让模型做出这种东西来?!

是的,团队里真的会有对美学非常敏感的成员,去仔细地审查成百上千张图片,并且仅凭肉眼就能判断出模型间的细微优劣。

大家甚至开玩笑说,未来的目标是根据他们的品味,训练一个「审美自动评分器」。

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

一个比你更聪明的创意伙伴


最后,当被问及未来时,团队的想象力被彻底打开。

Nicole的梦想,可以说是击中了每一个PM的心:「我希望有一天,这个模型能直接为我制作一套看起来很棒的工作幻灯片。它不仅要好看,所有图表和数据都必须是事实准确(Factuality)的。」

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

而研究员Mostafa的愿景则更具哲学思辨,也更令人激动。他期待的不仅仅是高质量的图像,而是一种全新的智能——「Smartness」

「我期待这样一种情况:我让模型做一件事,它没有完全遵循我的指令。但在看到结果后,我反而会说:我很高兴它没听我的,这结果比我实际描述的还要好!

香蕉革命首揭秘!谷歌疯狂工程师磕文字渲染,竟意外炼出最强模型

在Mostafa看来,这并非模型的「失误」或「意外」,而是一种更高层次的智能涌现。

当AI的知识和视角超越用户时,它不再是一个被动的工具,而是一个能主动提供更优解的、比你更「聪明」的创意伙伴。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动