Nano Banana 的诸多产品可能

Nano Banana 的诸多产品可能

Google Developer 网站展示的 Nano Banana 的能力

Nano Banana 也就是 Google 最近发布的 Gemini 2.5 Flash Image Preview 模型,最近非常火热。核心原因有两个,第一个是有着目前来讲可能最好的一致性;另外一个是速度非常快。这两点我们会在接下来的内容里来展开讲讲。除此之外,这次的图片模型发布,还有一个很好的玩的点,跟当时的 gpt-4o-image 类似,也有出圈的小案例 —— 3D 手办。但不止于此,Nano Banana 这次的更新远比 gpt-4o-image 的影响力要大,这个我们一会也会来展开讲。

本篇内容主要会分为两个部分来讲,第一个部分是跟大家介绍一下这个模型,一致性为什么强到一定程度能做的事情就会开始变得越发得的多;第二个部分是跟大家展示一些实际的案例以及产品案例,简单设想一下接下来的一些产品可以怎么做,我也会在这几天里尝试去做这样的产品出来,届时也会再继续发文来跟大家介绍。

Nano Banana 的一致性

Nano Banana 的一致性可能是目前通用的生图模型里做的最好的。一致性一直被看的很重要,但是过去很少有模型可以做的好,几乎所有的生图的网站或者依赖生图能力的产品都在期待更好的一致性。所谓的一致性其实就是指这个图在产生各种各样的变体之后,是否还跟之前是相似的。我们举两个例子你就知道为什么太多的功能都在依赖一致性能力了。

比如我们比较常见的通过模型擦除掉图里的某个物品,就像我们今天刚更新的这个 Nano Banana 的生图网站举例的一样(是的,你现在也可以直接访问Nano Banana 生图 来体验 Nano Banana 啦):

帮我擦除掉当前图片里的马芬蛋糕

你现在可以非常清楚的看到,右侧通过 Nano Banana 生成的图片非常好的擦除掉了马芬蛋糕,但是并没有破坏其他的图片样式和结构,星巴克的玻璃杯还是一样的,吸管和叉子这样的精细物品保持原样,甚至盘子上的光影也做了相应的处理。这就是一致性带来的非常真实的效果。除了这种场景依赖一致性以外,还有比如换装、场景融合等等,一会你在下面的产品案例里也会看到这些能力的不通应用场景的展示。

总之,一致性为 Nano Banana 带来了非常广阔的应用空间,非常多的产品功能会因为 Nano Banana 优秀的一致性能力而变得可能。

响应速度快 + 低成本优势

过去公认的质量很好的模型就是 OpenAI 的 gpt-4o 的生图能力,如果你是 ChatGPT 的会员还好,但是如果你通过 OpenAI 的 gpt-image-1 API 来请求使用的话,OpenAI 的生图能力虽然不错,但是响应速度和成本远远高于目前的 Nano Banana,并且速度更慢。通常来讲,几乎对于任何模型而言都是,速度越快成本就越低,因为占用的同等算力的时间比较短,所以成本更低。

过去 OpenAI 的 gpt-4o 生图能力之所以被大家普遍接受,正是因为 gpt-4o 是为数不多的可以通过自然语言描述来生图,并且理解能力非常不错。而更早之前的主流的生图模型更多的是通过各种词汇的堆砌来生成图片,这种模式很难被普通用户掌握,并且就算是对专业的生图玩家来说,也很难做到精细化的控制,通常要生成很多次,产生很多算力的浪费才能生成相对想要的图片。

但是现在 Google 的 Nano Banana 也可以做到像 gpt-4o 生图能力一样好的自然语言理解,并且还有更快的速度、更好的一致性以及更低的成本。

Nano Banana 在产品端的诸多可能

有了这些优势之后,Nano Banana 确实可以做出来很多可能会很不错的产品上的尝试。而且这次 Nano Banana 的公布正好还有个非常棒的铺垫—— Google AI Studio Build 功能 的支持,Google 自己下场和用户们一起做了一些基于 Nano Banana 的 Vibe Coding 产品,更好的展开了模型的可能性以及模型可以如何转换成产品的。

基于 Nano Banana 的快速 Demo 产品

Home canvas

Home Canvas

比如 Home Canvas 这款 Demo 演示了如何通过手动拖拽产品到房间,然后渲染出合适的效果的。场景、交互和时机效果都有了,你现在就可以点击刚刚的链接查看。你还可以看到对应的代码来了解是如何实现的,这个场景背后实现的很重要的能力就是我们一直提到的 Nano Banana 的一致性能力。

基于这种编辑方法以及利用一致性能力、位置理解能力、图片编辑能力,Google 还做出了一些其他 Demo,应用在不同的领域。

Pixshop

pixshop

比如这款 Pixshop 也是一样的,你可以选择上传一张图片,然后标记你要改的位置,输入提示词,就可以精准的更改对应的部分。

pixshop_demo_1

比如这里上传一张模特图像,然后标记到衬衫的部分,要求改为蓝色的衬衫,就可以实现比较精准的更改。(其实这个场景下也并不太需要标记这个动作,常见的部分直接描述也可以做到,单纯依赖语意理解就足够了)

pixshop_demo_2

Gemini Co-Drawing

Gemini Co-Drawing 这是个很有意思的项目,也给了我很多启发。你可以通过这个画布先简单利用简笔画功能画一些形状或者物品之类的,然后再添加提示词,利用 Nano Banana 来生成同样简笔画效果的图片,然后再重新渲染回到画布上。

co-drawing-1

比如这里我先简单画一个小鱼的形状,但是很简陋,然后搭配提示词,就可以生成美观更写实的小金鱼。

co-drawing-2

你还可以在此基础上继续绘画继续完善。这也是 Gemini 本次官方推荐的一种用法 —— 可以持续的通过对话流的形式来逐渐改善你的绘制精细度和效果。

我希望能尝试的一种效果

说完这么多的 Nano Banana 的 Demo,其实还有很多很多直接通过提示词来实现的 Demo 效果也非常不错。我也鼓励你可以通过搜索引擎、Twitter 、小红书或者公众号了解更多的 Nano Banana 的提示词玩法。你也可以直接在我的个人网站的 Nano Banana 绘图页面上应用,顺带一提,这里其实可以支持通过提示词效果一次性生成很多张图片,可以玩玩看。

说回到我最想实现的一种产品效果也是借鉴上文的 Gemini Co-Drawing 的交互。在此之前我还在群里见到群友田飞的 Nano Banana 尝试,做了非常精细的效果演示,并且还手绘了一下过程(起初我以为这是一款基于 Nano Banana 的产品,因为这个手绘演示的过程实在太过于直觉了),非常推荐大家看一下。

群友田飞的 Demo

群友田飞的 Demo 2

群友田飞以及 Gemini 官方的演示 Gemini Co-Drawing 给了我非常大的启发,如果让 Nano Banana 实现可能需求量更大的场景 —— 编辑图片 的话,那么最直接的方法可能就是这种形态。利用画布可以粘贴用户自己的参考图、手绘标注以及其他素材,然后利用 Nano Banana 来生成后重新绘制到画布上,并且支持多轮的编辑,这样就可以继续实现 Gemini 推荐的持续编辑能力了。

甚至比较炫酷的像是“利用零件组合”的样式也是可以在画布内实现的,就像公众号新智元展示的 Demo 一样:

xinzhiyuan-demo

但是更具体的交互流程和技术实现还没有完全想好,最近这两天会逐渐开始实现这个想法,进度更新后我也会来做更多的同步。

希望这篇内容对你也有启发,如果你也感兴趣 Nano Banana,也欢迎来我的 Nano Banana 图片生成页面体验和试玩https://erlich.fun/nano-banana-image,除此之外,我们其实是个聚合型的 AI 大模型 API,你购买的 API 可以使用到目前全球最先进的各种类型的 AI。如果你想体验目前可能是最自然的组合模型的话,那一定试试我们的 DeepGeminiPro 和 SeedGeminiPro