首页 抖音快讯文章正文

谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

抖音快讯 2025年08月27日 16:58 1 admin
谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

文章转载自「新智元」

昨晚,谷歌发布了其最新图像生成与编辑模型 Gemini 2.5 Flash Image,代号nano banana,被网友誉为「最强图像模型」。

此前,nano-banana 在 LMArena 上线后便迅速风靡。凭借角色一致性、提示编辑、原生世界知识和多图像融合四大能力,nano-banana 在盲测的 500 多万场中,获得了超 250 万选票,以 171 分优势领先第二名 flux-1-knotext-max,并取得了 LMArena 竞技场历史上最大的 Elo 分数领先优势。

谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

目前,nano banana 已通过 Gemini API 和 Google AI Studio 面向开发者推出,并通过 Vertex AI 面向企业推出。

超 12000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

进群后,你有机会得到:

  • 最新、最值得关注的 AI 新品资讯;

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道

01 能够精准编辑图像,

保证角色一致性

关于新模型的性能,谷歌DeepMind进行了详细介绍。

首先是模型的能力介绍:

「从逼真的写实杰作到令人惊叹的幻想世界,现在可以原生地生成、编辑和优化图像,在推理、控制和创意方面达到全新水平。」

角色一致性方面,为模型提供参考图像,它便能生成新的视觉内容,在不同的姿势、光照、环境或风格中保持角色、主体或对象的相似性,从而帮助创作出更具吸引力、叙事性更强的作品。

感觉个人就能制作电影的时代即将到来!

谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

新模型可以应用特定的艺术风格、设计或纹理,可以轻松地将这些从一张图像转移到另一张图像,同时保留原主体的形态和细节。

这对于广告设计界几乎就是降维打击。

谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

在创意构图方面,只需一个提示词,即可将多个图像中的创意元素融合在一起。

使用2.5 Flash,可以开始融合最多三个输入中的不同元素,从而创建出独特而统一的构图。

比如在山峰前跃出水面的鲸鱼。

谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

借助Gemini的底层逻辑,2.5 Flash可以推断出图像中某个时刻之前或之后发生的事情。

这相当一种现实世界推理,需要完全依赖于世界知识。

比如,生成一个气球飘向仙人掌的初始画面后,让它设想接下来可能出现的场景。

谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

02 四大能力,

表现优于同类模式

Gemini 2.5 Flash Image此次更新了四个超强能力:

  • 保持角色一致性

  • 完全基于提示的图像编辑

  • 原生世界知识

  • 多图像融合

可以将多张图像融合为一张图像,保持角色一致性以实现丰富的叙事效果,使用自然语言进行目标转换,并利用 Gemini的全球知识来生成和编辑图像。

谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

比如过道、人像和手机可以完美的融合成一张人物在过道里打电话的照片。

尤其是灯管散发出的光形成的漫反射。

图像生成中的一个基本挑战是在多个提示和编辑中保持角色或物体的外观一致。

现在,可以将同一个角色放置在不同的环境中,以新的设置从多个角度展示单一产品,或生成一致的品牌资产,同时保持主体的一致性。

谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

除了在角色一致性方面表现出色外,模型还非常擅长遵循视觉模板。

谷歌已经提供了开发者探索的模板,诸如房地产列表卡片、统一的员工徽章或整个产品目录的动态产品效果图等场景。

谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

Gemini 2.5 Flash Image 支持通过自然语言进行目标化转换和精确的局部编辑。

例如,模型可以模糊图像背景、去除T恤上的污渍、从照片中移除整个人物、更改主体姿势、为黑白照片上色,或者根据简单的提示实现您所能想象到的其他效果。

谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

更绝的是,此次更新的nano-banana还具有出色的「原生世界知识」。

从历史上看,图像生成模型在生成美观的图像方面表现出色,但在对现实世界的深层语义理解方面有所欠缺。

而Gemini 2.5 Flash Image受益于Gemini的全球知识,从而解锁了新的用例。

在Google AI Studio中构建了一个模板应用,可将简单的画布转变为交互式教育导师。

它展示了该模型读取和理解手绘图、帮助解答现实世界问题,以及在单一步骤中遵循复杂编辑指令的能力。

谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

Gemini 2.5 Flash Image能够理解和融合多张输入图像。

可以将某个对象放入场景中,使用配色方案或纹理重新设计房间风格,并通过单个提示融合图像。

谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

03 每生成一张图不到 3 毛钱,

定价低于 OpenAI 同类模型

该模型现已通过Gemini API和Google AI Studio面向开发者推出,并通过Vertex AI面向企业推出。

Gemini 2.5 Flash Image的价格为每百万输出token 30.00美元,每张图片为1290个输出token。

也就是每张图片只需0.039美元,按照现在的费率,一张图也就是不到3毛钱!

比OpenAI便宜太多了!网友纷纷表示,谷歌这是请奥特曼吃香蕉呢~

谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型

转载原创文章请添加微信:founderparker

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动