🤔 Gemini 3 Pro Image (она же Nano Banana Pro)
Предыдущая модель была основана на Gemini 2.5 Flash, а эта — на свежей Gemini 3 Pro. Архитектурно это все также диффузионная голова поверх токенов из текстового энкодера Gemini. Кажется, теперь понятно, почему они не выпускали версию на 2.5 Pro — Gemini 3 была уже на подходе, и не было смысла делать генератор под в скором времени устаревшую модель.
Теперь модель размышляет в ходе генерации и может сгенерить до 3 картинок под капотом, проверяя их на совпадение с промптом и качеством композиции, проверяя, чтобы всё было сделано как надо (test time scaling для визуальных моделей). Юзеру показывается только финальная картинка. Ещё она может искать в интернете, если для генерации нужна актуальная информация.
Проблема прошлой модели была в том, что она слишком фокусировалась на том, чтобы отредактировать картинку, ничего не изменяя. Из-за этого могли появляться странные баги: когда ты просто пытаешься поменять угол обзора, а получаешь на выходе какой-то сумасшедший коллаж. Теперь моделька поохотнее вращает объекты и нативнее вставляет их в сцену. Картинку теперь реально можно использовать как стиль. С этим тоже была беда: старый банан всё норовил, скажем так, натянуть сову на глобус — то есть картинку-референс на твой промпт, который с объектами референса мог быть вовсе и не связан. И да, он отлично шарит за постсоветскую эстетику — таким не все модельки могут похвастаться.
Клёвая тема с готовой серийной генерацией: может генерить сразу несколько кадров по очереди, что дико упрощает воркфлоу. Модель сама пишет историю и раскадровку по ходу генерации. Можно сделать запрос из 10 картинок, и они будут как-то сами собой развиваться. Удобно для быстрого продакшена и теста идей.
Добавили и невидимую вотермарку SynthID, которая чётко показывает, где и что было отредактировано (а может, это и минус). Хотя, надоедливый ромбик в правом нижнем углу все ещё на месте.
Ну и наконец подняли разрешение до 4К — а то банан 1 работал на одном мегапикселе. Правда, из Gemini App картинки скачиваются лишь в 1408x768. Видимо, 4К будет позже или только в API. Но даже при малом размере картинки выглядят очень качественно. Детали в них почти не плывут, а натурально сжимаются.
Тем временем серверам Google, кажется, стало тяжко. Deep Research в Gemini повис в бесконечной очереди, а в AI Studio отключили бесплатный тест. Попробовать можно только в Gemini App, но с лимитами.
Странно, что Google выкладывают модели сейчас. Старая Nano Banana и так была лучшей, а тут они сами себя перебивают. Если бы за релиз отвечал Сэм Альтман, он бы выждал, пока конкурент что-нибудь покажет, чтобы только потом его унизить.
На лидерборде модели пока нет.
Цена генерации в 4к может доходить до 18 центов за картинку. А внутри Gemini одна картинка в 1К генерит по 25 сек, это если не активизировался test time scaling.
@GPTMainNews
Комментарии