Gemini Omni: что на самом деле говорит утечка перед I/O

· Chris Sherman

2 мая: строка UI. 11 мая: первые сгенерированные клипы. 19–20 мая: объявление. За шесть дней до основного доклада Google — что известно о Gemini Omni и что нет.

Утечка в двух актах

Для модели, которая ещё не анонсирована, у Gemini Omni была необычно хорошо задокументированная подготовка. След начинается 2 мая 2026 года, когда пользователь X заметил скрытую строку UI во вкладке генерации видео Gemini: «Start with an idea or try a template. Powered by Omni». TestingCatalog опубликовал материал в тот же день. Строка пролежала там девять дней, пока все строили предположения.

Затем 11 мая 2026 года упал второй ботинок. Сгенерированные клипы — явно произведённые чем-то отличным от публичного Veo 3.1 — утекли как минимум из одного аккаунта Gemini Pro. Два получили больше всего внимания: сцена со спагетти в ресторане на берегу моря и профессор, разбирающий тригонометрические доказательства на доске. Оба были подхвачены 9to5Google, Android Authority, Chrome Unboxed и десятком других изданий в течение 24 часов.

Следующее крупное событие — Google I/O 2026, 19–20 мая. Когда вы читаете это, осталось, вероятно, шесть дней. Google подтвердил, что обновления Gemini и ИИ в повестке. Omni по имени не подтверждали.

Эта статья — снимок от 13 мая, середина промежутка. Что реально, что спекуляция, что подразумевают клипы и за чем действительно следить, когда начнётся основной доклад. Обновим после I/O.

Хронология одним взглядом

ДатаСобытиеДостоверность источника
2 мая 2026Строка UI «Powered by Omni» обнаружена во вкладке видео GeminiВысокая — скриншот в обращении
2–10 мая 2026Фаза спекуляций. Конкретного вывода нет, но несколько изданий подтверждают строкуПодтверждено
11 мая 2026Клипы утекают из аккаунта Gemini Pro — особенно сцена со спагетти и профессор у доскиВысокая — несколько изданий независимо сообщают об одних и тех же клипах
11–12 маяПоявляется расширенная строка UI: «Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more»Подтверждено
19–20 мая 2026Основной доклад Google I/O 2026 — вероятное официальное объявлениеЗапланировано (ещё не произошло)

Бросаются в глаза две вещи. Во-первых, утечка произошла внутри продукта, а не как маркетинговая нескромность — Google, похоже, начал выкатывать Omni небольшой группе пользователей Gemini Pro до объявления, и развёртывание было достаточно заметным, чтобы попасть на скриншот. Это куда более надёжный сигнал, чем утечка в прессу. Во-вторых, вторая строка UI («remix your videos, edit directly in chat, try templates») говорит, что Google позиционирует это как продукт рабочего процесса, а не просто модель — формулировки вроде «edit directly in chat» и «remix» — это язык потребительского продукта, а не бенчмарка.

Что на самом деле показывают два клипа

Две утёкшие записи — самая конкретная доступная сейчас информация. Обе короткие — менее 10 секунд — и сгенерированы из текстовых подсказок в том, что пользователи описали как веб-интерфейс Gemini Pro.

Клип 1: сцена со спагетти

Посетитель в ресторане на берегу моря ест спагетти, свет заката, средиземноморский фон. Примечательна не визуальная точность — она конкурирует с тем, что уже делает Veo 3.1. Примечательно, что спагетти ведут себя как спагетти. Накручиваются на вилку, падают с весом, движение «вилка-ко-рту» соблюдает непрерывность. Сцены с едой высокой физической нагрузкой исторически были слабым местом видеомоделей — приборы и еда неестественно деформируются, нити рвутся, гравитация перестаёт работать посреди сцены. Утёкший клип справляется чисто, что указывает на заметно лучший физический априор у базовой модели, чем у публичного Veo 3.1.

Клип 2: профессор у доски

Профессор разбирает тригонометрические доказательства на доске. Камера держит доску, пока он пишет. Здесь интересен рендеринг текста и формул. ИИ-видеомодели печально известны плохим связным текстом — буквы плавают между кадрами, уравнения превращаются в абракадабру на полпути, всё похожее на математику обычно разваливается. Утёкший клип с доской показывает узнаваемую математическую нотацию, согласованно отрисованную между кадрами, а рука профессора правильно следует за штрихами. Это не мелкое улучшение; это категория, сломанная два года.

Что подразумевают оба клипа вместе

Если утёкшие клипы репрезентативны — а это «если» стоит принимать всерьёз, потому что Google естественно засеял бы клипы, показывающие лучший вывод — то Omni метит в две самые трудные известные слабости ИИ-видео: сложная физика и рендеринг экранного текста. Это те же две точки, на которые указывали и отступление Sora 2, и запуск HappyHorse 1.0 как на следующую границу. (Каноническое изложение см. в нашем обзоре середины 2026.)

Выбор демо-контента важен. Сцена со спагетти и урок математики — не эстетическая бравада, а демонстрация возможностей, нацеленная ровно на то, что конкуренты не делают надёжно. Это говорит о том, против чего Google позиционирует Omni.

Три конкурирующие теории, что такое Omni на самом деле

Вот где живёт спекуляция перед I/O. Есть три правдоподобных интерпретации того, что представляет собой Omni, и они имеют очень разные последствия для остального рынка.

Теория 1: потребительский ребрендинг Veo 3.1

Самая простая интерпретация: Omni — лишь новое публичное имя для существующего пайплайна Veo внутри потребительского приложения Gemini. Базовый стек генерации не меняется. Google убирает бренд «Veo» с потребительской поверхности, сохраняет его для корпоративного API Vertex AI и даёт чат-опыту Gemini единое продуктовое имя.

За: у Google история переименований. Bard → Gemini — самый заметный пример. Потребительский бренд «Veo 3.1» всегда был неуклюжим — номера версий не продаются нетехническим пользователям. Строки UI («remix your videos, edit directly in chat») подчёркивают рабочий процесс, а не новизну модели.

Против: утёкшие клипы показывают возможности, заметно превосходящие публичный Veo 3.1, особенно в физике и рендеринге текста. Чистый ребрендинг не даст видимо иной вывод. Если Google не выпускает по-тихому Veo 3.2 под брендом Omni, эта теория не объясняет клипы.

Теория 2: отдельная модель видео, обученная в Gemini

Промежуточная интерпретация: Omni — новая видеомодель, обученная внутри линейки Gemini, отдельно от пайплайна Veo от DeepMind, и стоит рядом с Veo в дорожной карте Google вместо замены. Потребительский Gemini использует Omni; корпоративные клиенты на Vertex AI продолжают пользоваться Veo. Оба эволюционируют параллельно.

За: Google исторически поддерживал параллельные линии моделей (Gemini для потребителей, отдельные исследовательские линии для корпоратива). Скачок возможностей в утёкших клипах согласуется с моделью, обученной на другой смеси данных и архитектуре, нежели Veo 3.1.

Против: поддержание двух линий топовых видеомоделей дорого. Отступление Sora 2, разобранное в нашем посмертном анализе, показало, что даже OpenAI не могла поддерживать одну потребительскую видеомодель в масштабе; запускать две было бы странным стратегическим выбором для Google.

Теория 3: единая омни-модель (изображение + видео + аудио за один прямой проход)

Самая амбициозная интерпретация: Omni — первый член нового семейства моделей, обученных в Gemini, который обрабатывает генерацию изображений, видео и синхронного аудио за один прямой проход. Это архитектура, которую открыл HappyHorse 1.0, когда взял Arena #1 в апреле с моделью унифицированного аудио-видео на 15 млрд параметров. По этой теории Omni заменяет и текущий пайплайн Veo (видео), и стек Nano Banana Pro (изображение) единым мультимодальным генератором.

За: само имя продукта — «Omni» — сильно намекает на мультимодальный охват. Постановка UI («our new video model, remix your videos, edit directly in chat») предполагает единую продуктовую поверхность, покрывающую несколько модальностей. Конкурентное давление от HappyHorse выпустить унифицированную архитектуру острое; Google теряет вершину Arena с апреля. (Детали архитектуры см. в нашем обзоре HappyHorse 1.0.)

Против: единые омни-модели технически сложны, и Google был более консервативен, чем ByteDance или Alibaba, в отправке новых архитектур потребителям. Замена двух производственных пайплайнов одновременно — высокорискованный ход для публичного основного доклада.

Где деньги

Отраслевые наблюдатели распределяются примерно 30/30/40 по трём теориям. Самое вероятное прочтение, исходя из постановки UI и скачка возможностей, — гибрид Теории 2 и 3: новая модель, обученная в Gemini, обрабатывающая как минимум видео и аудио единообразно, а Veo остаётся живым на Vertex AI для корпоративных клиентов, нуждающихся в стабильности. Через шесть дней узнаем.

Почему это важно за пределами Google

Omni интересен не потому, что Google выпускает новую видеомодель. Новые видеомодели выходят теперь каждый месяц. Omni интересен из-за того, что значило бы, если бы Теория 3 была верна.

Индустрия ИИ-видео провела первые четыре месяца 2026 года, наблюдая за развёртыванием тезиса о единой омни-модели. Sora 2 рухнула за 84 дня на архитектуре с раздельными пайплайнами. HappyHorse 1.0 взял Arena #1 за 48 часов на унифицированной архитектуре 15B. Seedance 2.0 выдаёт аудио и видео вместе через двухветвевой трансформер. Технический центр тяжести смещался к единым моделям целый квартал, и единственная крупная западная лаборатория, не ответившая, — это Google.

Если Omni — настоящая единая модель (Теория 3), Google догоняет архитектурный тренд, заданный китайскими лидерами. У этого три нисходящих эффекта:

  1. Бренд Veo консолидируется или уходит на покой. Эксплуатация Veo с раздельными пайплайнами рядом с единым Omni более 12 месяцев не имеет смысла. Корпоративные клиенты на Vertex AI ожидали бы путь миграции.
  2. Архитектурный разрыв Запад/Китай закрывается. Фрейм «китайские модели имеют структурное преимущество, потому что первыми сделали единые архитектуры» ослабевает, как только Google отправляет свою.
  3. Дифференциация на уровне модели продолжает сжиматься. Если четыре из шести топовых моделей используют единые архитектуры аудио-видео, слой модели коммодитизируется ещё сильнее, а слой агента становится единственной значимой точкой дифференциации. Это центральный тезис нашего обзора середины 2026, и Omni его продлевает.

Если Omni — лишь ребрендинг (Теория 1), бо́льшая часть этого не применима. Но утёкшие клипы делают Теорию 1 наименее вероятной из трёх.

За чем следить на I/O — чек-лист из шести пунктов

Когда основной доклад начнётся 19 мая, вот что скажет, какая теория была верна. Ни один сигнал в одиночку не решает, но вместе они складываются в чёткую картину.

Сигнал 1: говорит ли Google ещё «Veo» со сцены?

Если Veo заметно отсутствует в потребительском сегменте Gemini — это свидетельство ухода Veo как потребительского бренда. Если Veo всё ещё упоминается рядом с Omni, оба сосуществуют (Теория 2). Если оба упоминаются, но Veo позиционируется только для корпоратива, миграция началась.

Сигнал 2: Omni генерирует аудио в том же вызове, что и видео?

Один API-вызов, возвращающий синхронизированные видео + аудио — техническая подпись единой омни-модели (Теория 3). Два отдельных API-вызова — сначала видео, потом второй для синтеза аудио — это более старый архитектурный паттерн. Демо на докладе, вероятно, покажет это явно.

Сигнал 3: обрабатывает ли Omni также генерацию изображений?

Если Omni позиционируется только как новая видеомодель, охват уже. Если Omni впитывает генерацию изображений — заменяя Nano Banana Pro внутри чат-поверхности Gemini — это свидетельство более широкого тезиса единой модальности. Следите, приписываются ли демо генерации изображений на докладе «Omni» или остаются под Nano Banana / Imagen.

Сигнал 4: есть ли API в первый день?

Veo 3.1 запустился в Vertex AI в день своего основного доклада. Если Omni выйдет с публичным доступом к API и ценами 19–20 мая, он позиционирован для производственного использования немедленно. Если выйдет только для потребителей, а API «позже в этом году», Google идёт путём retail-first как у Sora 2 — мы уже видели, что это экономически не работает в масштабе.

Сигнал 5: какова структура цен?

Текущий публичный бенчмарк цен топового API — примерно $0,05/сек (HappyHorse 1.0) до $0,50/сек (Veo 3.1). Если цена API Omni ближе к HappyHorse, Google соревнуется по стоимости; если ближе к Veo 3.1 — по качеству. Выбор скажет, какой рынок Google приоритизирует.

Сигнал 6: как вписан Project Astra?

Google демонстрирует Project Astra — мультимодального ассистента реального времени — на каждом I/O с 2024 года. Если Astra внезапно становится продуктом 19–20 мая и использует Omni внизу, это более широкий тезис «omni»: не просто видеомодель, а мультимодальная ИИ-поверхность реального времени через весь опыт Gemini.

Что это значит для вашего рабочего процесса

Три практических пункта, пока ждём доклад.

Если вы автор, использующий Gemini напрямую

Пока ничего не меняйте. Omni в потребительском приложении Gemini, если выйдет на следующей неделе, просто заменит или обновит существующий опыт генерации видео. Формула «remix your videos, edit directly in chat» подсказывает тот же чатовый рабочий процесс, который вы уже знаете, только с более умной моделью под капотом. Дождитесь объявления, попробуйте новые возможности и подстройте подсказки под то, что действительно изменится.

Если вы строите на Vertex AI

Внимательно следите за Сигналом 1 (бренд Veo) и Сигналом 4 (доступность API). Если Veo уходит как потребительский бренд, но остаётся на Vertex AI для корпоратива, ваша существующая интеграция в безопасности. Если Omni полностью заменит Veo на Vertex AI, впереди миграция API. В обоих случаях стройте интеграцию через слой агента или оркестрации, чтобы смена модели была изменением конфигурации, а не кода.

Если вы запускаете мульти-модельный стек агентов

Это ситуация, которую мы отстаиваем в последних публикациях. (См. шесть сдвигов и узкие места длинного формата.) Мульти-модельный агент трактует Omni как ещё один генератор для маршрутизации — рядом с Veo, Seedance, HappyHorse, Kling, Luma и Runway. Слой агента — там, где живёт продуктивный вопрос: какой план в этом 60-секундном видео маршрутизируется в какую модель. Объявление Omni добавляет ещё один вариант в таблицу маршрутизации; оно не меняет архитектуру, которую вы запускаете.

Именно поэтому мы держим стек Genra модельно-агностичным: слой модели продолжает двигаться, слой агента — то, что накапливается.

Итог, за шесть дней до I/O

Что известно: внутри вкладки видео Gemini есть настоящая модель под названием Omni, она выдаёт видимо лучший результат, чем публичный Veo 3.1, по физике и тексту, и Google оформляет её как продукт рабочего процесса на основе чата. Что неизвестно: ребрендинг это, параллельная новая модель или единая система омни-модальности.

Самое полезное единичное предсказание — третье. Если Теория 3 верна, 19 мая архитектурный разрыв Запад/Китай закрывается, и индустрия возвращается к многополярной гонке, где все крупные лаборатории запускают единые архитектуры аудио-видео. Если Теория 3 неверна, Google остаётся позади архитектурного фронта, заданного HappyHorse — и конкурентная картина остаётся той же, что после запуска HappyHorse в апреле.

В любом случае практический вывод один и тот же: слой модели продолжает двигаться, слой агента — то, где надо строить. Omni этого не меняет. Либо усиливает (добавляя ещё одну коммодизированную модель в таблицу маршрутизации), либо не сдвигает иглу (если ребрендинг). Команды, уже перенёсшие дифференциацию в инфраструктуру агента, поглотят всё, что Google объявит 19-го, как обновление конфигурации. Команды, всё ещё ставящие на единственную модель-героя, потратят остаток Q2 на доработку.

Обновим эту статью после доклада тем, что объявят на самом деле.

FAQ

Что такое Gemini Omni?

Gemini Omni — необъявленная модель генерации видео ИИ, всплывшая через две утечки внутри интерфейса Gemini от Google: строка UI, замеченная 2 мая 2026 года, и сгенерированные видеоклипы, утёкшие из аккаунта Gemini Pro 11 мая. На 13 мая Google официально Omni не подтвердил. Наиболее вероятное окно объявления — Google I/O 2026, 19–20 мая.

Заменит ли Gemini Omni Veo?

Не подтверждено. В игре три теории: Omni — потребительский ребрендинг Veo 3.1; Omni — отдельная новая модель, обученная в Gemini, сосуществующая с Veo; Omni — единая омни-модальная модель, заменяющая и Veo, и стек генерации изображений. Утёкшие клипы предполагают возможности, превышающие текущий публичный Veo 3.1, что делает теорию чистого ребрендинга наименее вероятной.

Что показали утёкшие клипы?

Два клипа получили больше всего внимания: сцена со спагетти в ресторане на берегу моря (примечательна обработкой движения пищи высокой физической нагрузки) и профессор, разбирающий тригонометрические доказательства на доске (примечателен согласованным рендером математической нотации между кадрами). Обе области — общепризнанные слабые точки видеомоделей.

Когда мы узнаем, что такое Omni на самом деле?

Google I/O 2026, 19–20 мая. Следите за шестью сигналами: всё ещё ли упоминается Veo, генерируется ли аудио в том же вызове, что и видео, включена ли генерация изображений, есть ли API в первый день, какова цена и как вписан Project Astra.

Что мне делать как автору до объявления?

Пока ничего не меняйте. Если пользуетесь потребительским Gemini — ждите запуска. Если на Vertex AI — следите за путём миграции API. Если запускаете мульти-модельный стек агентов — трактуйте Omni как ещё один генератор для маршрутизации.

Как Omni соотносится с HappyHorse 1.0?

HappyHorse 1.0 взял Artificial Analysis Video Arena #1 за 48 часов после запуска 7 апреля 2026 года с единой архитектурой аудио-видео на 15 млрд параметров. Если Omni тоже единая омни-модель, он представляет первый ответ Google на это архитектурное направление.


Об авторе
Chris Sherman освещает технологию ИИ-видео и креативные продакшен-пайплайны. Следите за @GenraAI для прямого освещения основного доклада Google I/O 2026 19–20 мая.