谷歌又赢了一把nanobanana模型彻底火了附国内使用方法

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

最近谷歌又一次刷屏了AI圈!

(不得不说,今年以来谷歌的势头是真的猛。)

这玩意儿刚出来的时候,还披着 “nano-banana” 的神秘代号,在LMSYS竞技场上横冲直撞,直接以历史最大分差空降榜首,把所有对手打得措手不及。

当圈内都还在猜这是哪路神仙时,结果谷歌官宣:没错,正是在下—— Gemini 2.5 Flash Image 。

并在昨晚正式发布。

你可能会说,不就是又一个图像模型吗?

错了。

这东西的强大之处,不在于生成,而在于 理解和编辑 。绝了。

为什么说它是绝了?因为它听得懂人话

过去的AI图像编辑,你让它换个背景,它可能连人物的头发丝都给你换掉。但“纳米香蕉”不一样,它背后是强大的Gemini模型,核心技术是—— “对话式图像分割” 。

简单来说,这个模型不再是简单地识别“人”、“桌子”这样的标签。它能像一个真正的人类一样,通过自然语言理解图像中复杂的概念、空间关系和抽象指令。

• 关系理解: 你可以对它说“选中那个拿着飞盘的人”,而不是费力地去手动抠图。

• 抽象概念: 甚至可以理解“清理这片脏乱的区域”或“选中建筑物投下的阴影”这类抽象指令。

正是因为背后有强大的Gemini大语言模型作为支撑,它才能如此精准地理解你的意图,并对图像进行精细化、符合逻辑的修改。

说人话就是: 它不再是那个只会识别“猫”和“狗”的笨AI了。你现在可以像对一个设计实习生下指令一样对它说话。

推特上的大佬 @patloeber 做了个实测,他拿了张自己的照片,直接输入:

“给我加一顶漫画风格的香蕉帽子”。

模型不仅精准地加上了帽子,连光影、风格都完美融合,看不出一点破绽。

这就是逻辑。

它能理解“拿着飞盘的人”、“建筑物的阴影”这种复杂的、带有上下文的指令。

这在以前,你得用PS抠图半小时。

多图操作才是王炸

如果说单图编辑只是开胃菜,那它的多图参照功能,说真的,直接掀了桌子。

推上和油管很多实测视频都展示了这一点。 你可以扔给它两张完全不相干的图,然后给出你的指令,比如换上这套衣服。

结果模型不仅把目标主体场景无缝融合进新场景,还保持了各自的身份特征,连光影、环境色都处理得十分到位。

你品品这个场景重构和人物一致性的能力,是不是有点离谱?这让多少PS教程黯然失色。

除此之外 局部编辑与元素添加 ,以及 图像扩展(Outpainting)与视角转换 等能力也都不在话下。

(不许有大胆的想法!哈哈)

而价格方面 gemini-2.5-flash-image-preview 输入/输出文本的价格是 0.3/2.5 美元 ,输入/输出图像的价格是 0.3/30 美元 。

迎头痛击了最大的对手OpenAI。

国内如何使用?

作为大厂,谷歌这次非常大方,不玩虚的,直接上线,上线就是全线可用。

所以无论你是普通用户还是硬核开发者,现在都能轻松上手这款SOTA级别的工具。

1. 最直接的方式(免费): 直接访问 Gemini 官网 (gemini.google.com) 或者下载 Gemini App 。在对话框里上传图片,直接开聊就行。这是零成本、零门槛的入门方式。

2. 更专业的方式(也免费): 访问 Google AI Studio 。可以更精细地调整参数,适合有一定基础的开发者和高阶玩家。

好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

THE END
分享
二维码
< <上一篇
下一篇>>