Gemini Omni: co naprawdę zdradza przeciek przed I/O
· Chris Sherman2 maja: ciąg UI. 11 maja: pierwsze wygenerowane klipy. 19–20 maja: zapowiedź. Sześć dni przed keynote Google'a — oto co wiadomo o Gemini Omni i czego nie.
Przeciek w dwóch aktach
Jak na model, który nie został jeszcze ogłoszony, Gemini Omni miał niezwykle dobrze udokumentowany rozbieg. Trop zaczyna się 2 maja 2026, gdy użytkownik X odkrył ukryty ciąg UI w zakładce generowania wideo Gemini: «Start with an idea or try a template. Powered by Omni». TestingCatalog opublikował tego samego dnia. Ciąg pozostał tam przez dziewięć dni, podczas gdy wszyscy spekulowali.
Następnie 11 maja 2026 spadł drugi but. Wygenerowane klipy — wyraźnie wyprodukowane przez coś innego niż publiczny Veo 3.1 — wyciekły z co najmniej jednego konta Gemini Pro. Dwa zwróciły największą uwagę: scena ze spaghetti w nadmorskiej restauracji i profesor rozwiązujący dowody trygonometryczne na tablicy. Oba zostały podchwycone przez 9to5Google, Android Authority, Chrome Unboxed i kilkanaście innych mediów w ciągu 24 godzin.
Następne duże wydarzenie to Google I/O 2026 w dniach 19–20 maja. Gdy to czytasz, zostanie prawdopodobnie sześć dni. Google potwierdził, że aktualizacje Gemini i AI są w agendzie. Nie potwierdził Omni z nazwy.
Ten artykuł jest migawką z 13 maja — środek przerwy. Co jest prawdą, co spekulacją, na co wskazują klipy i na co naprawdę zwracać uwagę, gdy zacznie się keynote. Zaktualizujemy po I/O.
Oś czasu w pigułce
| Data | Wydarzenie | Wiarygodność źródła |
|---|---|---|
| 2 maja 2026 | Ciąg UI «Powered by Omni» odkryty w zakładce wideo Gemini | Wysoka — zrzut ekranu w obiegu |
| 2–10 maja 2026 | Faza spekulacji. Brak konkretnych wyników, ale wiele mediów potwierdza ciąg | Zweryfikowane |
| 11 maja 2026 | Klipy wyciekają z konta Gemini Pro — zwłaszcza scena spaghetti i profesor przy tablicy | Wysoka — wiele mediów niezależnie relacjonuje te same klipy |
| 11–12 maja | Pojawia się rozszerzony ciąg UI: «Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more» | Zweryfikowane |
| 19–20 maja 2026 | Keynote Google I/O 2026 — prawdopodobna oficjalna zapowiedź | Zaplanowane (jeszcze nieodbyte) |
Dwie rzeczy się wyróżniają. Po pierwsze, przeciek miał miejsce w samym produkcie, a nie jako wpadka marketingowa — Google zdaje się rozpocząć wdrażanie Omni małej grupie użytkowników Gemini Pro przed zapowiedzią, a wdrożenie było wystarczająco widoczne, by je zrzucić ekranem. To znacznie bardziej wiarygodny sygnał niż przeciek do prasy. Po drugie, drugi ciąg UI («remix your videos, edit directly in chat, try templates») mówi, że Google pozycjonuje to jako produkt workflow, a nie jedynie model — sformułowania jak «edit directly in chat» i «remix» to język produktu konsumenckiego, nie język benchmarków.
Co naprawdę pokazują dwa klipy
Dwa przeciekłe klipy to najbardziej konkretna obecnie dostępna informacja. Oba były krótkie — poniżej 10 sekund — i wygenerowane z promptów tekstowych w czymś, co użytkownicy opisali jako interfejs webowy Gemini Pro.
Klip 1: scena ze spaghetti
Gość w nadmorskiej restauracji jedzący spaghetti, światło zachodu słońca, śródziemnomorskie tło dźwiękowe. Tym co zwraca uwagę nie jest jakość wizualna — to konkuruje z tym, co Veo 3.1 już robi. Tym co zwraca uwagę jest to, że spaghetti zachowuje się jak spaghetti. Owija się wokół widelca, opada z ciężarem, a ruch widelec-do-ust respektuje ciągłość. Sceny jedzeniowe o wysokiej fizyce były historycznie słabym punktem modeli wideo — sztućce i jedzenie deformowały się nienaturalnie, nitki pękały, grawitacja przestawała działać w połowie. Przeciekły klip radzi sobie z tym schludnie, co sugeruje, że model bazowy ma wyraźnie lepszy priorytet fizyczny niż publiczne Veo 3.1.
Klip 2: profesor przy tablicy
Profesor rozwiązuje dowody trygonometryczne na tablicy. Kamera trzyma się tablicy, gdy on pisze. Interesujący tu jest render tekstu i wzorów. Modele wideo AI są osławione kiepskim spójnym tekstem — litery dryfują między klatkami, równania stają się bełkotem w połowie, wszystko co przypomina matematykę zazwyczaj się rozpada. Przeciekły klip z tablicy pokazuje rozpoznawalną notację matematyczną renderowaną spójnie przez klatki, a ręka profesora poprawnie podąża za pociągnięciami. To nie drobne usprawnienie; to kategoria zepsuta od dwóch lat.
Co oba klipy razem sugerują
Jeśli przeciekłe klipy są reprezentatywne — i to «jeśli» warto traktować poważnie, bo Google naturalnie zasiałby klipy pokazujące swój najlepszy output — to Omni celuje w dwie z najtrudniejszych znanych słabości wideo AI: złożoną fizykę i renderowanie tekstu na ekranie. To te same dwa punkty, które wskazało zarówno wycofanie Sory 2, jak i start HappyHorse 1.0 jako kolejny front. (Kanoniczna narracja: nasz przegląd mid-2026.)
Wybór treści demo ma znaczenie. Scena ze spaghetti i lekcja matematyki to nie popis estetyki — to popis możliwości celujący dokładnie w to, czego konkurencja nie potrafi niezawodnie zrobić. Mówi to, naprzeciwko czego Google pozycjonuje Omni.
Trzy rywalizujące teorie o tym, czym naprawdę jest Omni
Tu mieszka spekulacja przed I/O. Istnieją trzy wiarygodne interpretacje tego, co Omni reprezentuje, i mają bardzo różne implikacje dla reszty rynku.
Teoria 1: konsumenckie przemarkowanie Veo 3.1
Najprostsza interpretacja: Omni to jedynie nowa publiczna nazwa istniejącego pipeline'u Veo wewnątrz konsumenckiej aplikacji Gemini. Bazowy stack generacji się nie zmienia. Google wycofuje markę «Veo» z powierzchni konsumenckiej, zachowuje ją dla korporacyjnego API Vertex AI i daje doświadczeniu czatu Gemini ujednoliconą nazwę produktu.
Za: Google ma historię przemianowań. Bard → Gemini był najbardziej widocznym przykładem. Konsumencka marka «Veo 3.1» zawsze była niezgrabna — numery wersji nie sprzedają się użytkownikom nietechnicznym. Ciągi UI («remix your videos, edit directly in chat») podkreślają workflow, nie nowość modelu.
Przeciw: Przeciekłe klipy pokazują możliwości widocznie przewyższające publiczne Veo 3.1, zwłaszcza w fizyce i renderowaniu tekstu. Czyste przemarkowanie nie dałoby widocznie różnego outputu. Jeśli Google po cichu nie wypuszcza Veo 3.2 pod marką Omni, ta teoria nie wyjaśnia klipów.
Teoria 2: osobny model wideo wytrenowany w Gemini
Interpretacja pośrednia: Omni to nowy model wideo wytrenowany w linii Gemini — oddzielnie od pipeline'u Veo DeepMind — i stoi obok Veo w roadmapie Google, zamiast je zastępować. Konsumenckie Gemini używa Omni; klienci korporacyjni na Vertex AI nadal używają Veo. Oba ewoluują równolegle.
Za: Google historycznie utrzymywał równoległe linie modeli (Gemini dla konsumentów, oddzielne linie badawcze dla korporacji). Skok możliwości w przeciekłych klipach jest spójny z modelem wytrenowanym na innej mieszance danych i architekturze niż Veo 3.1.
Przeciw: Utrzymanie dwóch linii topowych modeli wideo jest drogie. Wycofanie Sory 2, omówione w naszym post-mortem, pokazało, że nawet OpenAI nie utrzymało jednego konsumenckiego modelu wideo w skali; uruchamianie dwóch byłoby dziwnym wyborem strategicznym dla Google.
Teoria 3: ujednolicony model omni (obraz + wideo + audio w jednym przejściu)
Najbardziej ambitna interpretacja: Omni to pierwszy członek nowej rodziny modeli wytrenowanych w Gemini, który obsługuje generowanie obrazu, generowanie wideo i zsynchronizowane audio w jednym przejściu w przód. To architektura, którą zapoczątkował HappyHorse 1.0, gdy w kwietniu zajął Arena #1 z ujednoliconym modelem audio-wideo o 15B parametrach. Według tej teorii Omni zastępuje zarówno obecny pipeline Veo (wideo), jak i stack Nano Banana Pro (obraz) jednym multimodalnym generatorem.
Za: Sama nazwa produktu — «Omni» — mocno sugeruje multimodalny zakres. Ramowanie UI («our new video model, remix your videos, edit directly in chat») sugeruje pojedynczą powierzchnię produktową obejmującą wiele modalności. Presja konkurencyjna ze strony HappyHorse na wysłanie ujednoliconej architektury jest ostra; Google traci szczyt Areny od kwietnia. (Detale architektoniczne w naszej recenzji HappyHorse 1.0.)
Przeciw: Ujednolicone modele omni są technicznie trudne, a Google był bardziej konserwatywny niż ByteDance czy Alibaba w wysyłaniu nowych architektur do konsumentów. Wymiana dwóch produkcyjnych pipeline'ów jednocześnie to ruch wysokiego ryzyka dla publicznego keynote'u.
Gdzie idą zakłady
Obserwatorzy branży dzielą się z grubsza 30/30/40 na trzy teorie. Najprawdopodobniejsze odczytanie, oparte na ramowaniu UI i skoku możliwości, to hybryda między Teorią 2 i 3: nowy model wytrenowany w Gemini obsługujący przynajmniej wideo i audio w sposób ujednolicony, z Veo utrzymanym przy życiu na Vertex AI dla klientów korporacyjnych potrzebujących stabilności. Za sześć dni się dowiemy.
Dlaczego to ważne poza Google
Omni nie jest interesujący, bo Google wypuszcza nowy model wideo. Nowe modele wideo wychodzą teraz co miesiąc. Omni jest interesujący ze względu na to, co by oznaczało, gdyby Teoria 3 była słuszna.
Branża wideo AI spędziła pierwsze cztery miesiące 2026 na patrzeniu, jak rozwija się teza ujednoliconego modelu omni. Sora 2 zawaliła się w 84 dni z architekturą oddzielnych pipeline'ów. HappyHorse 1.0 zajął Arena #1 w 48 godzin z ujednoliconą architekturą 15B parametrów. Seedance 2.0 dostarcza audio i wideo razem przez transformer dwugałęziowy. Środek ciężkości technicznej przesunął się ku modelom ujednoliconym przez cały kwartał, a jedynym dużym zachodnim laboratorium, które nie zareagowało, był Google.
Jeśli Omni jest prawdziwym modelem ujednoliconym — Teoria 3 — to Google dogania trend architektoniczny ustanowiony przez chińskich liderów. Ma to trzy efekty:
- Marka Veo konsoliduje się lub przechodzi na emeryturę. Utrzymywanie Veo o oddzielnych pipeline'ach obok ujednoliconego Omni dłużej niż 12 miesięcy nie ma sensu. Klienci korporacyjni na Vertex AI oczekiwaliby ścieżki migracji.
- Luka architektoniczna Zachód/Chiny zamyka się. Ramowanie «chińskie modele mają strukturalną przewagę, bo pionierowały architektury ujednolicone» słabnie, gdy tylko Google wyśle swój.
- Różnicowanie warstwy modelu nadal się ściska. Jeśli cztery z sześciu topowych modeli używają ujednoliconych architektur audio-wideo, warstwa modelu staje się coraz bardziej towarem, a warstwa agenta staje się jedynym znaczącym punktem różnicowania. To centralna teza naszego przeglądu mid-2026, a Omni ją wydłuży.
Jeśli Omni to tylko przemarkowanie (Teoria 1), większość powyższego nie ma zastosowania. Ale przeciekłe klipy czynią Teorię 1 najmniej prawdopodobną z trzech.
Na co zwracać uwagę na I/O — sześciopunktowa lista
Gdy 19 maja zacznie się keynote, oto co powie wam, która teoria była słuszna. Żaden sygnał z osobna nie jest decydujący, ale razem tworzą wyraźny obraz.
Sygnał 1: Czy Google nadal mówi «Veo» na scenie keynote?
Jeśli Veo jest wyraźnie nieobecne w konsumenckim segmencie Gemini, to dowód, że Veo wycofuje się jako marka konsumencka. Jeśli Veo jest nadal wspominane obok Omni, oba współistnieją (Teoria 2). Jeśli oba są wspominane, ale Veo jest pozycjonowane tylko dla korporacji, migracja się zaczyna.
Sygnał 2: Czy Omni generuje audio w tym samym wywołaniu co wideo?
Pojedyncze wywołanie API zwracające zsynchronizowane wideo + audio to techniczny podpis ujednoliconego modelu omni (Teoria 3). Dwa osobne wywołania API — najpierw wideo, potem drugie wywołanie dla syntezy audio — to starszy wzorzec architektoniczny. Demo na keynote prawdopodobnie pokaże to wyraźnie.
Sygnał 3: Czy Omni obsługuje też generowanie obrazu?
Jeśli Omni jest pozycjonowane tylko jako nowy model wideo, zakres jest węższy. Jeśli Omni wchłania generowanie obrazu — zastępując Nano Banana Pro w powierzchni czatu Gemini — to dowód szerszej tezy multimodalności. Sprawdźcie, czy dema generowania obrazu na keynote są przypisane «Omni» czy pozostają oznaczone Nano Banana / Imagen.
Sygnał 4: Czy w dniu pierwszym jest API?
Veo 3.1 wystartował na Vertex AI w dniu pierwszym swojego keynote'u. Jeśli Omni wyjdzie z publicznym dostępem do API i cennikiem 19–20 maja, jest pozycjonowane do natychmiastowego użytku produkcyjnego. Jeśli wyjdzie tylko dla konsumentów z dostępem do API «później w tym roku», Google idzie ścieżką retail-first Sory 2 — i już widzieliśmy, że ekonomicznie nie działa to w skali.
Sygnał 5: Jaka jest struktura cen?
Obecny publiczny benchmark cen API klasy top to mniej więcej 0,05 $/s (HappyHorse 1.0) do 0,50 $/s (Veo 3.1). Jeśli cena API Omni będzie bliższa HappyHorse, Google konkuruje kosztem; bliższa Veo 3.1 — jakością. Wybór powie, który rynek Google priorytetyzuje.
Sygnał 6: Jak pasuje Project Astra?
Google demonstruje Project Astra — swojego multimodalnego asystenta czasu rzeczywistego — na każdym I/O od 2024. Jeśli Astra nagle stanie się produktem 19–20 maja i użyje Omni pod spodem, to ta szersza teza «omni»: nie tylko model wideo, ale multimodalna powierzchnia AI czasu rzeczywistego obejmująca całe doświadczenie Gemini.
Co to oznacza dla waszego workflow
Trzy praktyczne kwestie w oczekiwaniu na keynote.
Jeśli jesteś twórcą używającym Gemini bezpośrednio
Nie zmieniaj jeszcze niczego. Omni w konsumenckiej aplikacji Gemini, jeśli wyjdzie w przyszłym tygodniu, po prostu zastąpi lub uaktualni istniejące doświadczenie generowania wideo. Sformułowanie «remix your videos, edit directly in chat» sugeruje ten sam workflow oparty o czat, który już znasz, z mądrzejszym modelem pod spodem. Poczekaj na zapowiedź, wypróbuj nowe możliwości i dostosuj prompty do tego, co naprawdę się zmieni.
Jeśli budujesz na Vertex AI
Uważnie obserwuj Sygnał 1 (marka Veo) i Sygnał 4 (dostępność API). Jeśli Veo zostanie wycofane jako marka konsumencka, ale pozostanie na Vertex AI dla korporacji, twoja istniejąca integracja jest bezpieczna. Jeśli Omni całkowicie zastąpi Veo na Vertex AI, masz przed sobą migrację API. W obu przypadkach buduj integrację przez warstwę agenta lub orkiestracji, by zmiana modelu była zmianą konfiguracji, a nie kodu.
Jeśli prowadzisz stack agentowy multi-modelowy
To sytuacja, której bronimy w ostatnich tekstach. (Zob. sześć przesunięć i wąskie gardła długiego formatu.) Agent multi-modelowy traktuje Omni jako kolejny generator do routingu — obok Veo, Seedance, HappyHorse, Kling, Luma i Runway. Warstwa agenta to miejsce, w którym żyje produktywne pytanie: który ujęcie w tym 60-sekundowym wideo trafia do którego modelu. Zapowiedź Omni dodaje kolejną opcję do tablicy routingu; nie zmienia architektury, którą prowadzisz.
To dokładnie powód, dla którego utrzymujemy stack Genra agnostycznym wobec modelu: warstwa modelu nadal się porusza, warstwa agenta to ta, która się kumuluje.
Wniosek, sześć dni przed I/O
Co wiemy: w zakładce wideo Gemini istnieje prawdziwy model o nazwie Omni, produkuje on output widocznie lepszy od publicznego Veo 3.1 w fizyce i tekście, a Google ramuje go jako produkt workflow oparty o czat. Czego nie wiemy: czy to przemarkowanie, równoległy nowy model, czy ujednolicony system omni-modalności.
Najbardziej użyteczna pojedyncza prognoza to ta trzecia. Jeśli Teoria 3 się sprawdzi, luka architektoniczna Zachód/Chiny zamknie się 19 maja, a branża wróci do wielobiegunowego wyścigu, w którym wszystkie duże laboratoria prowadzą ujednolicone architektury audio-wideo. Jeśli Teoria 3 zawiedzie, Google pozostaje za frontem architektonicznym wyznaczonym przez HappyHorse — a obraz konkurencji pozostaje taki, jaki był po kwietniowym starcie HappyHorse.
W obu przypadkach praktyczny wniosek jest ten sam: warstwa modelu się porusza, warstwa agenta to miejsce, gdzie powinniście budować. Omni tego nie zmienia. Albo to wzmacnia (dodając kolejny model-towar do tablicy routingu), albo nie porusza igłą (jeśli to przemarkowanie). Zespoły, które już przeniosły różnicowanie na infrastrukturę agentową, wchłoną cokolwiek Google ogłosi 19. jako aktualizację konfiguracji. Zespoły wciąż stawiające na jednego bohatera-modela spędzą resztę Q2 na dostosowywaniu.
Zaktualizujemy ten artykuł po keynote o to, co rzeczywiście zostało ogłoszone.
FAQ
Czym jest Gemini Omni?
Gemini Omni to nieogłoszony model generowania wideo AI, który wypłynął przez dwa przecieki w interfejsie Gemini Google'a — ciąg UI dostrzeżony 2 maja 2026 i wygenerowane klipy wideo, które wyciekły z konta Gemini Pro 11 maja. Na dzień 13 maja Google nie potwierdził Omni oficjalnie. Najbardziej prawdopodobne okno zapowiedzi to Google I/O 2026 w dniach 19–20 maja.
Czy Gemini Omni zastąpi Veo?
Niepotwierdzone. W grze trzy teorie: Omni to konsumenckie przemarkowanie Veo 3.1; Omni to oddzielny nowy model wytrenowany w Gemini współistniejący z Veo; albo Omni to ujednolicony model omni-modalności zastępujący zarówno Veo, jak i stack generowania obrazu. Przeciekłe klipy sugerują możliwości przewyższające obecne publiczne Veo 3.1, co czyni teorię czystego przemarkowania najmniej prawdopodobną.
Co pokazały przeciekłe klipy?
Dwa klipy zdobyły najwięcej uwagi: scena ze spaghetti w nadmorskiej restauracji (zauważalna za obsługę ruchu jedzenia o wysokiej fizyce) i profesor rozwiązujący dowody trygonometryczne na tablicy (zauważalny za spójny render notacji matematycznej przez klatki). Oba obszary są uznanymi słabymi punktami modeli wideo.
Kiedy się dowiemy, czym naprawdę jest Omni?
Google I/O 2026 w dniach 19–20 maja. Obserwujcie sześć sygnałów: czy Veo nadal jest wspominane, czy audio jest generowane w tym samym wywołaniu co wideo, czy włączone jest generowanie obrazu, czy jest API w dniu pierwszym, jakie są ceny i jak pasuje Project Astra.
Co mam zrobić jako twórca przed zapowiedzią?
Nie zmieniajcie jeszcze niczego. Jeśli używacie konsumenckiego Gemini, poczekajcie na start. Jeśli jesteście na Vertex AI, śledźcie ścieżkę migracji API. Jeśli prowadzicie stack agentowy multi-modelowy, traktujcie Omni jako kolejny generator do routingu.
Jak Omni wypada w porównaniu z HappyHorse 1.0?
HappyHorse 1.0 zdobył Artificial Analysis Video Arena #1 w 48 godzin od startu 7 kwietnia 2026, z ujednoliconą architekturą audio-wideo 15B parametrów. Jeśli Omni również jest ujednoliconym modelem omni, reprezentuje pierwszą odpowiedź Google'a na ten kierunek architektoniczny.
O autorze
Chris Sherman zajmuje się technologią wideo AI i workflow produkcji kreatywnej. Śledźcie @GenraAI dla relacji na żywo podczas keynote Google I/O 2026 19–20 maja.