
文 | 字母 AI
进入 2026 年以后,很少有东说念主再拿起图像生成模子,行业内的焦点全在 agent 身上。
图像生成模子,似乎一经成为"上一个时间"的故事。大多数从业者的共鸣是,图像生成的工夫道路一经基本定型,剩下的仅仅工程优化和老本放手。
外洋调研机构 Fundamental Business Insights 在《AI 图像生成器商场限制和份额预见》中提到,2024 年大家商场限制为 4.1024 亿好意思元,2025 年为 4.785 亿好意思元,2026 年为 5.4136 亿好意思元。
由此可见,图像生成模子商场已然是一个造就踏实,且想象空间比拟小的商场。
可就在这个节骨眼上,谷歌拿出了 Nano Banana 2。
这是用相通请示词生成的图片,可以看到,Nano Banana 2 在呈现图片的形状上,一经和 Nano Banana Pro 呈现出了赫然的区别。

因为这不是那种粗浅的版块迭代。
谷歌在发布今日就文书,这个新模子将立即取代之前的总计版块,成为 Gemini、谷歌搜索、AI Studio 等总计居品中的默许图像生成模子,最让东说念主惊诧的是,就连谷歌我方的 AI 编程器用 Antigravity 也对 Nano Banana 2 完成了接入。
为啥谷歌顷刻间" All-in "?
在往日一段时刻里,用户一直靠近着一个两难采选,想生成 4K 分别率的图片就需要等很久,想坐窝生成图片,就只可找低分别率的模子。
而 Nano Banana 2 又快又好。
谷歌以为,在 agent 时间,图像生成依然是一个值得重仓进入的战场。
Nano Banana 2 的特质齐有什么?
Nano Banana 2 最大的特质即是快,它粗略在 4-6 秒内完成 4K 分别率图像的生成。
谷歌的 Gemini 系列一直看护着两条居品线:Pro 追求性能,Flash 追求效能。
但将这套架构移动到图像生陋习模,并非粗浅的模子压缩。图像生成的计算密集度远高于文本生成,一张 2K 分别率的图像包含的信息量,相等于数千个文本 token。
如安在不捐躯视觉质料的前提下提高推理速率,这是一个工程清贫。
Nano Banana 2 的责罚决策是剿袭了分层生成战术。
模子领先在较低分别率下完成场景相识、构图野心和物理联系推理,然后再通过高效的上采样管说念将图像提高至 2K 甚而 4K 分别率。
这种"先想考,后渲染"的历程,让模子粗略在保握 Pro 级别的一致性和细节质料时,缩小计算老本。
除了速率,Nano Banana 2 还引入了"全国常识"这个见地。
传统的图像生成模子,实践上是一个宽广的视觉模式匹配器。它们在海量图像数据上试验,学会了"什么样的画面看起来果然",但并不信得过相识画面中的物理端正、地舆特征或文化布景。
比如说你要求生成"巴黎铁塔在雨天的风物",它可能生成一张看起来可以的图片,但铁塔的结构细节、巴黎私有的建筑格调、雨天的光芒特征,齐可能是微辞或缺欠的。
Nano Banana 2 的不同之处在于,它径直剿袭了 Gemini 谣言语模子的全国常识库,何况粗略及时调用谷歌图像搜索作为"视觉参考库"。
也即是说当你要求生成某个果然地方的场景时,模子不仅知说念这个地方的地舆位置、表象特征、建筑格调,还能检索有计划的果然相片作为视觉基准,从而生成愈加准确的图像。
在谷歌的" Window Seat "演示中。它粗略字据用户指定的任何地方和刻下的及时天气数据,生成该地方窗外的传神景不雅。
举个例子,《哈利波特》中通往霍格沃茨的 9 ¾ 站台位于英国的国王十字车站(King's Cross station)。在 Window Seat 中输入对应车站,窗户的样式输入温馨咖啡馆,外面的天气指定为瓢泼大雨,Nano Banana 2 就会生成以下一幕。

把"全国常识"注入到 Nano Banana 2 里,其实即是将谣言语模子的推理身手与图像生成的渲染身手聚会起来的产物。
模子在生成图像之前,会先进行一次"语义推理",相识请示词中触及的果然全国见地,然后再将这些见地转机为视觉元素。
在图像生陋习模,翰墨渲染一直是一个公认的清贫。岂论是 Stable Diffusion、Midjourney 如故早期的 DALL-E,生成的图像中淌若包含翰墨,时常会出现字母错位、拼写缺欠、字体参差词语等问题。
这个问题的根源在于,传统的扩散模子将翰墨视为视觉纹理的一部分,而不是具有语义结构的标志系统。
Nano Banana 2 在翰墨渲染上获取了显耀越过。字据官方诠释,这一代模子粗略"更可靠地渲染翰墨",复古多话语文本,何况粗略保握字体的了了度和格调一致性。
这个身手的提高,来自于模子对翰墨的"双重相识"。Nano Banana 2 既通过 Gemini 的话语模子身手,相识了翰墨自己的语义内容,也通过图像生成的渲染身手相识翰墨的视觉呈现端正。
我让 Nano Banana 2 遐想了一个"字母 AI "的 Logo,可提现游戏app它就能很好展示出每一个字,何况还用电路板这个视觉元素来强化 AI 的见地。
Nano Banana 2 背后的工夫是什么?
{jz:field.toptypename/}Nano Banana 2 的另一个病笃本性,是它的"对话式剪辑"身手。这的确不是一个新见地,但实践用起来后果要比以往好好多。
Nano Banana 2 当今粗略作念到,完全使用对话来进行图片剪辑,比如"把布景换成日落"、"把这个东说念主的一稔改成蓝色"、"去掉左边的那棵树"。
这种交互形状的关节,在于模子粗略在多轮对话中保握对图像的"讲求"。当你在第三轮对话中说"把刚才阿谁蓝色一稔改回红色"时,模子需要知说念"刚才阿谁蓝色一稔"指的是第二轮剪辑中被改成蓝色的那件一稔。
这种凹凸文跟踪身手,叫作念"想维签名" ( Thought Signatures)。
粗浅来说,当模子生成图像时,它里面会进行一系列想考,想维签名即是每一步想考的标签。在多轮对话剪辑图像时,你把上一轮的想维签名传回给模子,它就能记取之前的构图逻辑、光影联系和遐想意图,从而罢了连贯的局部修改—。
当你要求对已有图片进行修改时,那么模子就会用想维签名来相识原始图像的举座结构,作念出合理的调理而不破损画面的一致性。
前文提到的一致性,是面前图像生成模子最大的清贫之一。
Nano Banana 2 复古最多 14 张参考图像的夹杂使用,其中可以包括最多 5 张东说念主物扮装图像和最多 6 张物体图像。
模子粗略从这些参考图像中索求视觉特征,并在重生成的图像中保握这些特征的一致性。
比如 Nano Banana 2 官方发的图片,将一个香蕉和恐龙玩偶聚会,就得到了一个以香蕉动作身体的恐龙玩偶。

以及,咱们不妨来望望 Nano Banana 2 和 GPT 的对比,相通的请示词下,GPT 带有赫然的 AI 生成感。Nano Banana 2 生成的图片更果然一些。
GPT:

Nano Banana 2:

同期,Nano Banana 官方还放出了一些由 Nano Banana 2 生成的超长图片。


相较于其他模子,Nano Banana 2 的上风是什么?
Nano Banana 2 是一个相等平衡的图片生成模子,它又有速率,又有质料,关节还低廉。
字据谷歌官方给出的信息,Nano Banana 2 生成 1k 图的价钱大要为 0.067 好意思元,相等于不到 5 毛钱。2K 图片为 0.1 好意思元,约 7 毛钱。4K 图片为 0.15 好意思元,大要 1 块钱。这个价钱比 Nano Banana Pro 低廉好多。

Pro 版块的上风在于极致的复杂场景把控、超写实光影渲染和小众艺术格调收复,妥当专科视觉遐想师、影视见地遐想师等对画质有极致要求的用户。
Nano Banana 2 用画质上限的稍稍贪污,换来了显耀的效能提高。Nano Banana 2 的订价更合适粗鄙创作家,以及那些需要快速迭代、多数目生成的实践业务需求。



Midjourney 依然是艺术创作的天花板。它的审好意思上限和格调化身手在行业内无东说念主能及,零碎是在生成具有电影质感、绘图笔触的艺术作品方面阐扬出色。
V7 版块的生成速率约为 20 秒 / 张,在复杂场景下可能更长。
但 Midjourney 的短板也极其赫然,它莫得对话式剪辑功能,无法精确放手果然全国元素(如特定地方的准确建筑格调、及时天气要求), API 洞开度极低,且主要通过 Discord 界面操作,不妥当企业级集成。
此前,在一项包含 50 多个请示词的对比测试中,Nano Banana Pro 的生成速率是 Midjourney 的 10 倍以上,Nano Banana 2 只会更快。
另外一大图像生成模子即是 Stable Diffusion 3。它的上风是开源、可土产货部署、自界说进度高,这关于有工夫身手和数据诡秘需求的开采者来说是病笃上风。
它还复古 LoRA 微调、ControlNet 等高等放手功能,可以针对特定需求进行深度定制。可以说,只有你工夫身手够高,那么 Stable Diffusion 3 十足是最佳的采选。
但 Stable Diffusion 3,需要设立土产货环境、相识复杂的参数设立、自行优化请示词。
而且在原生身手方面,Stable Diffusion 3 的翰墨渲染准确度在学术评测中得分仅为 1.25-1.95(满分 5 分),远低于 Nano Banana 2。
此外,它的生成速率、事实准确性、对话式剪辑身手也全面逾期于 Nano Banana 2。
天然,Nano Banana 2 并非紧密绝伦。在极致的艺术格调化创作、超复杂场景的光影渲染上,它和 Nano Banana Pro 以及 Midjourney 这么的居品,依然存在差距。
在多轮对话剪辑方面,天然模子复古最多 5 个扮装的一致性爱戴,但在一些特定的场景,仍然会出现隐微变化。而当对话进行多轮次后,这些隐微的变化也会积蓄在沿途。
同期,关于小众冷门的地方、物体,"全国常识"的后果也会有所扣头。
但不行否定的是,Nano Banana 2 给总计这个词文生图行业带来新的启示,将来的 AI 图像生成,不再是单纯的"纹理匹配",而是"谣言语模子推理身手 + 视觉渲染身手 + 检索增强事实准确性"的深度会通。
文生图器用终将从"画画的机器",造成信得过懂需求、懂全国的视觉创作助手。