Podsumowanie Google I/O 2026: brak Veo 4 — ale Gemini Omni i Spark oficjalnie wprowadziły warstwę agentów

Przez dwa miesiące cała branża wideo AI mówiła o Veo 4. Nie pojawił się. To, co Google ogłosił na I/O 2026, było większe i dziwniejsze: zunifikowany model multimodalny zwany Gemini Omni, agent działający w chmurze 24/7 zwany Spark, pakiet AI Ultra za 100 $, który resetuje konsumencki próg cenowy, oraz jasny sygnał, że Google traktuje teraz warstwę agentów jako kolejne starcie platformowe. Oto pełna analiza.

Sundar Pichai wszedł wczoraj na scenę Shoreline Amphitheatre i dał branży wideo AI coś, czego się nie spodziewała. Nie było Veo 4. Nie było ani jednego nagłówka z marką „Veo". W jego miejsce znalazło się coś strategicznie ciekawszego: Gemini Omni — multimodalny model, który natywnie obsługuje generowanie tekstu, obrazu, dźwięku i wideo w jednym systemie; Gemini Spark — osobisty agent AI, który żyje na chmurowej VM i działa w twoim imieniu 24 godziny na dobę; oraz restrukturyzacja cen, która stawia plan AI Ultra za 100 $ w centrum konsumenckiego zakładu Google na AI.

Keynote przepisał scenariusz najbliższych 12 miesięcy wideo AI. Poniżej wszystko, co ogłosił Google, co to faktycznie znaczy i gdzie branża wideo AI stoi rano po.

Gemini Omni: nagłówek, którego nikt nie przewidział

Najbardziej brzemiennym w skutki ogłoszeniem było Gemini Omni — nowa seria modeli, którą Google opisuje jako pierwszy prawdziwy zunifikowany system generowania multimodalnego w firmie. Tam, gdzie poprzednia oferta Google dzieliła zdolności między Veo (wideo), Imagen (obraz) i inne łączone systemy, Omni obsługuje generowanie tekstu, obrazu, dźwięku i wideo natywnie w jednym modelu.

Pierwszym publicznym modelem we frameworku Omni jest Omni Flash. Przyjmuje połączone wejścia tekstowe, obrazowe i dźwiękowe i zwraca krótkie kinematograficzne wideo ze zsynchronizowanym dźwiękiem. Google pokazał użytkowników wgrywających obraz statyczny, wypowiadających na głos instrukcje i otrzymujących z powrotem animowaną scenę z natywnym dźwiękiem reagującym na wypowiedziane wskazówki. Edycja jest konwersacyjna — udoskonalasz klip, mówiąc, co zmienić, zamiast pisać nowy prompt i generować od zera.

Trzy rzeczy odróżniają Omni strategicznie od linii Veo:

Jeden model, nie stos. Veo 3 miało już natywny dźwięk, ale szerszy kreatywny stos Google nadal opierał się na łączeniu osobnych modeli do generowania obrazu, produkcji dźwięku i edycji. Omni składa ten łańcuch. Implikacja strategiczna: Google wierzy, że kolejny skok jakości pochodzi ze wspólnego treningu między modalnościami, a nie z dalszego skalowania modeli wyłącznie wideo.
Generowanie zakotwiczone w świecie. Demis Hassabis pozycjonował Omni jako rozwinięcie pracy nad modelami świata Google DeepMind. Argument: Omni generuje wideo z silniejszą spójnością przestrzenną, czasową i fizyczną, ponieważ model bazowy ma bogatszą wewnętrzną reprezentację świata. Czy wynik to potwierdza w praktyce — to pytanie, które będziemy benchmarkować w następnym kwartale.
Edycja jako zdolność pierwszej klasy. Omni jest pozycjonowane nie tylko jako generator, ale jako edytor. Konwersacyjne udoskonalanie, zamiany scen i operacje w stylu remiks są częścią powierzchni produktu, a nie zewnętrzną warstwą. To znacząca zmiana w filozofii produktu, na którą konkurenci będą musieli zareagować.

Czego Omni obecnie nie robi: długiej formy. Omni Flash to krótka forma, a Google wyraźnie zaznaczył, że dłuższe i bardziej zaawansowane przepływy produkcyjne są planowane, ale jeszcze nie zostały wydane. Każdy, kto liczył na jednorazowe generowanie 60-sekundowej narracji, nadal czeka.

Gemini Spark: osobisty agent 24/7 w chmurze

Jeśli Omni było nagłówkiem, który większość komentatorów źle odczytała, Spark było ogłoszeniem najbardziej niedocenionym.

Gemini Spark to osobisty agent AI, który żyje na dedykowanej VM Google Cloud, działa nieprzerwanie i działa w twoim imieniu w produktach Google oraz rozszerzającej się liście usług firm trzecich poprzez Model Context Protocol (MCP). Opis produktu, w słowach Google: agent, który potrafi „rezerwować restauracje, składać zamówienia w Instacart i szkicować odpowiedzi w twojej skrzynce, gdy śpisz".

Strategicznego znaczenia trudno przecenić. Przez dwa lata konsumencka historia AI Google to było Gemini jako chatbot. Spark to Google mówiące jawnie, że chatbot był złą ramą — właściwą ramą jest autonomiczny agent operujący między aplikacjami i w czasie. Agent czyta twoją skrzynkę, podejmuje działania w twoich narzędziach, planuje między usługami i raportuje. Użytkownik opisuje rezultaty; Spark obsługuje wykonanie.

To ta sama teza, o którą branża wideo AI spierała się przez ostatni rok, zastosowana do ogólnej produktywności. Warstwa agentów nie jest już zakładem pozycjonującym startupy. Teraz to zakład pozycjonujący Google.

Cena ma tu znaczenie. Spark jest zablokowany za nowym pakietem AI Ultra za 100 $/miesiąc i w przyszłym tygodniu trafia w wersji beta do amerykańskich subskrybentów. Sama cena sygnalizuje, że Google uważa, iż istnieje znacząca populacja użytkowników gotowych zapłacić dziewięć razy więcej niż za pakiet Gemini Pro za 11 $, aby otrzymać agenta, który naprawdę coś robi.

Gemini 3.5: aktualizacja modelu fundamentowego

Pod ogłoszeniami Omni i Spark znajduje się odświeżenie modelu fundamentowego. Gemini 3.5 Flash został wczoraj uruchomiony w aplikacji Gemini, Search, Antigravity i Gemini API. Twierdzenie Google: przewyższa Gemini 3.1 Pro w benchmarkach programistycznych, agentowych i multimodalnych, działając przy mniej więcej 4-krotnej prędkości tokenów wyjściowych porównywalnych modeli frontier.

Gemini 3.5 Pro został ogłoszony, ale nie jest jeszcze powszechnie dostępny. Jest w testach i pojawia się w przyszłym miesiącu.

Wzorzec w Flash, Pro, Omni i Spark jest spójny: każdy produkt, który Google ogłosił na I/O, jest zbudowany na ścieżce zdolności agentowych. Szybsze podążanie za instrukcjami, dłuższy efektywny kontekst, lepsze użycie narzędzi i bardziej niezawodne wykonywanie wieloetapowe. Warstwa modelu jest kształtowana, aby obsługiwać warstwę agentów nad nią.

Antigravity 2.0: historia dla deweloperów

Antigravity to platforma rozwojowa agentów Google. Wczoraj otrzymała aktualizację 2.0 skupioną na orkiestracji — pozwala deweloperom komponować, planować i nadzorować wiele agentów, którzy współdziałają ze sobą i z zewnętrznymi narzędziami.

Znaczenie dla wideo AI jest pośrednie, ale realne. W miarę jak coraz więcej narzędzi wideo AI przechodzi z opakowań jednomodelowych do prawdziwie zorkiestrowanych potoków, podstawowa infrastruktura do uruchamiania, monitorowania i debugowania tych orkiestracji staje się fundamentalną zależnością. Antigravity 2.0 to Google próbujące posiadać tę warstwę infrastruktury w taki sam sposób, w jaki posiada warstwę modelu pod nią.

Czy niezależni twórcy agentów oprą się na infrastrukturze Google, czy zbudują własną — to jedno z ciekawszych otwartych pytań wyłaniających się z tego keynote'u. Odpowiedź wyznacza, ile z ekonomii agentów przechwyci Google w porównaniu z tym, ile pozostanie naprawdę otwarte.

Pakiet AI Ultra za 100 $: reset progu cenowego

Google AI Ultra zaczyna się teraz od 100 $ miesięcznie, z wyższym pakietem za 200 $. Poprzedni plan Ultra kosztował 250 $. Nowy pakiet startowy obejmuje dostęp do bety Gemini Spark, 5x limit użycia aplikacji Gemini względem pakietu Pro za 20 $, 20TB pamięci w chmurze oraz YouTube Premium.

Strategiczne odczytanie jest proste: Google agresywnie wycenia premium AI dla konsumenta, aby zdobyć wczesnych adopterów, którzy zdefiniują, jak czuje się produkt agentowy. Za 100 $/miesiąc Spark bezpośrednio konkuruje z górną częścią ChatGPT Pro i konsumenckich pakietów Claude. Funkcja agentowa jest wyróżnikiem — i jest to funkcja, której wersje konkurenci będą musieli wprowadzić w ciągu najbliższych 12 miesięcy lub oddać kategorię agenta produktywności.

Dla twórców i operatorów istotne pytanie brzmi: czy 100 $/miesiąc za osobistego agenta znacząco przyspieszy pracę. Szczera wczesna odpowiedź: zależy całkowicie od tego, czy beta Spark dorówna demo. Demo to demo. Dowiemy się w 90 dni.

Android XR i Project Aura: powierzchnia sprzętowa

Google odsłonił też nowe urządzenia „inteligentnych okularów", w tym Project Aura — inteligentne okulary klasy XR opracowane w partnerstwie z Xreal. W tym roku startują co najmniej trzy partnerstwa dotyczące inteligentnych okularów, pozycjonując Google między audio-first Ray-Bans od Meta a pełnymi headsetami XR.

Kąt AI: są napędzane przez Gemini. Kontekst wizualny na żywo, interakcja głosowa i działanie agentowe — wszystko nadające się do noszenia. Dla wideo AI implikacje są pochodne, ale realne. Noszona kamera z kontekstem Gemini staje się stałym urządzeniem wejściowym do tworzenia wideo, zarówno do uchwycenia odniesień, jak i do edycji na żywo w ruchu. Jesteśmy 18 miesięcy od momentu, gdy to zacznie znaczyć dla przepływów produkcyjnych. Jesteśmy zero miesięcy od momentu, gdy zacznie znaczyć dla dem konsumenckich.

Android 17: OS jako warstwa inteligencji

Aktualizacja Androida od Sameera Samata pozycjonowała sam OS jako przekształcający się „z systemu operacyjnego w system inteligencji". Ramowanie — Gemini rozumie kontekst między aplikacjami, przewiduje potrzeby i podejmuje działania w imieniu użytkownika — to ta sama teza warstwy agentów zastosowana do platformy mobilnej.

Konkretne funkcje są mniej istotne niż ramowanie. Google zobowiązuje się do przyszłości, w której warstwa OS i warstwa agentów zlewają się w jeden stos, wszystko działające na modelach fundamentowych Gemini. Dla deweloperów oznacza to, że projektowanie aplikacji świadomych agentów nie jest już opcjonalnym wzorcem; to bazowe założenie, wokół którego Google buduje platformę.

Czego nie wydano: nieobecność Veo 4

Najbardziej obserwowane oczekiwane ogłoszenie, które się nie wydarzyło: Veo 4. Nie było odsłony Veo 4, ani harmonogramu Veo 4, ani jawnego potwierdzenia, że Veo jest wycofywane na rzecz linii Omni.

Najbardziej prawdopodobne odczytanie: Google konsoliduje swoje wysiłki w zakresie generatywnego wideo pod Omni, zamiast kontynuować równoległy rozwój Veo. Omni Flash jest pozycjonowane jako nowy punkt wyjścia. Veo 3.1 pozostaje opcją klasy produkcyjnej dla przypadków użycia, których Omni Flash jeszcze nie obsługuje — w szczególności dłuższe generowanie pojedynczego ujęcia, wyjście 4K oraz spójność postaci poprzez ID-embedding, z których żadnej Omni Flash obecnie nie wspiera.

Dla szerszej branży wideo AI to znacząca zmiana kierunku. Osiemnaście miesięcy rozmów „co Veo zrobi dalej" zostało zastąpionych „czym jest Omni". Operatorzy z automatyzacją specyficzną dla Veo będą musieli ocenić, czy czekać na dojrzewanie Omni w długiej formie, czy utrzymywać produkcję na Veo 3.1 w przewidywalnej przyszłości. Prawdopodobnie oba, równolegle, na różnych typach treści.

Co to oznacza dla operatorów wideo AI

Cofając się od pojedynczych ogłoszeń, wczoraj zmieniły się trzy rzeczy, które ukształtują wideo AI na najbliższy rok.

Po pierwsze, strategia modelowa stała się bardziej nieuporządkowana w pożyteczny sposób. Omni to zakład na zunifikowaną multimodalność, ale Omni Flash to tylko krótka forma. Veo 3.1 nadal wykonuje cięższą pracę dla dłuższych klipów i wyższych rozdzielczości. Prawdziwe potoki produkcyjne będą używać obu, kierować między nimi i dynamicznie przełączać się w miarę dojrzewania Omni. Warstwa agentów jest miejscem, w którym żyje ta logika routingu.

Po drugie, myślenie w kategoriach warstwy agentów to teraz konsensus. Spark to Google mówiące głośno, że ramowanie chatbotowe było krokiem przejściowym, a celem jest autonomiczny agent. Każdy zespół produktów AI konsumenckich i korporacyjnych, który debatował, czy budować „asystenta", czy „agenta", otrzymał rozstrzygniętą odpowiedź. Warstwa agentów jest miejscem, dokąd przesuwa się konkurencja.

Po trzecie, edycja konwersacyjna zmienia przepływy twórców. Nacisk Omni na edycję w czacie — udoskonalanie klipu przez opisanie, co zmienić — zwija dotychczasowy dwuetapowy proces wygeneruj-potem-edytuj. Dla twórców wideo AI jest to znaczące uproszczenie UX, którego oczekuje się od konkurentów. Potok Genra już wspiera iterację konwersacyjną; oczekuj, że każda poważna platforma wideo AI wyda wersję tego w ciągu sześciu miesięcy.

Co Genra robi dalej

Kilka szczerych uwag na temat tego, dokąd Genra zmierza stąd.

Omni Flash zostanie zintegrowane, gdy tylko stanie się dostępne przez Gemini API. Warstwa agentów, którą buduje Genra, została zaprojektowana jako agnostyczna wobec modelu właśnie po to, aby dodatki takie jak Omni stawały się zmianami backendu, a nie zmianami przepływu pracy. Użytkownicy zobaczą lepszy wynik krótkiej formy, gdy logika routingu zacznie wybierać Omni Flash dla ujęć, w których wypada najlepiej. Długa forma, 4K i przypadki użycia o wysokiej spójności nadal działają na Veo i Seedance.

Ramowanie Spark jako agenta działającego w chmurze 24/7 to najbliższa walidacja, o jaką mogliśmy poprosić w stosunku do tezy warstwy agentów. Genra to agent specyficzny dla domeny produkcji wideo. Spark to agent ogólnego przeznaczenia do osobistej produktywności. Oboje współistnieją komfortowo — w taki sam sposób, w jaki agent CRM i agent kodujący współistnieją z ogólnym asystentem produktywności.

Większe ramy konkurencyjne: skoro Google zobowiązuje się teraz do warstwy agentów na poziomie platformy, pytanie dla każdego startupu wideo AI nie brzmi już „czy agenci są przyszłością" — to jest rozstrzygnięte. Pytanie brzmi: którzy agenci specyficzni dla domeny stają się wiarygodnym wyborem w swojej kategorii. Dla wideo AI to pytanie, na które Genra jest zbudowana, aby odpowiedzieć.

Kluczowe wnioski

Google I/O 2026 nie wydał Veo 4. Głównym ogłoszeniem wideo był Gemini Omni — zunifikowany model multimodalny obsługujący generowanie tekstu, obrazu, dźwięku i wideo w jednym systemie, z Omni Flash jako pierwszym publicznym modelem.
Gemini Spark — działający w chmurze 24/7 osobisty agent działający przez produkty Google i usługi firm trzecich połączone przez MCP — jest najbardziej istotnym strategicznie ogłoszeniem. Zobowiązuje Google do warstwy agentów jako następnego starcia platformowego.
Gemini 3.5 Flash uruchomiono wczoraj; Gemini 3.5 Pro jest w testach na przyszły miesiąc. Każda aktualizacja fundamentu została zaramkowana wokół zdolności agentowych, a nie tylko inteligencji.
AI Ultra wyceniono ponownie na 100 $/miesiąc na wejściu (200 $ wyższy pakiet), w dół z poprzedniego Ultra za 250 $. Dostęp do bety Spark jest ograniczony do pakietu 100 $ dla subskrybentów USA w przyszłym tygodniu.
Antigravity 2.0 rozszerza platformę rozwojową agentów Google o narzędzia orkiestracji — infrastrukturalny ruch dla twórców agentów.
Inteligentne okulary Android XR i Project Aura oraz ramowanie „systemu inteligencji" w Android 17 rozszerzają tezę agentów na warstwy sprzętową i OS.
Omni Flash to tylko krótka forma. Veo 3.1 pozostaje narzędziem produkcyjnym dla dłuższego, wyższej rozdzielczości i ID-spójnego wideo. Prawdziwe potoki będą kierować między oboma.
Edycja konwersacyjna jako zdolność pierwszej klasy w Omni to zmiana przepływu pracy, którą konkurenci będą musieli dorównać w ciągu sześciu miesięcy.
Genra integruje Omni Flash, gdy tylko dostęp przez API stanie się dostępny, a użytkownicy zobaczą wzrost jakości na kierowanych ujęciach krótkiej formy po cichu. Praca w długiej formie, 4K i krytyczna pod względem spójności kontynuuje na Veo i Seedance.

Często zadawane pytania

Czy Google ogłosił Veo 4 na I/O 2026?

Nie. Nie było ogłoszenia Veo 4. Zamiast tego Google przedstawił serię modeli Gemini Omni, z Omni Flash jako pierwszym publicznie dostępnym modelem. Najbardziej prawdopodobna interpretacja: Google konsoliduje prace nad generatywnym wideo pod frameworkiem Omni, zamiast kontynuować równoległe pokolenia Veo.

Czym jest Gemini Omni?

Gemini Omni to nowa zunifikowana multimodalna seria modeli Google, zdolna do natywnego generowania tekstu, obrazu, dźwięku i wideo z połączonych wejść. Omni Flash to pierwszy publiczny model, skupiony na wideo krótkiej formy ze zsynchronizowanym natywnym dźwiękiem i edycją konwersacyjną.

Czym jest Gemini Spark?

Gemini Spark to działający w chmurze 24/7 osobisty agent AI, który działa na dedykowanej VM Google, integruje się z produktami Google i ponad 30 usługami firm trzecich poprzez MCP i podejmuje działania w imieniu użytkownika — rezerwowanie, zamawianie, szkicowanie i zarządzanie zadaniami. W przyszłym tygodniu trafia w wersji beta do amerykańskich subskrybentów AI Ultra.

Ile kosztuje Google AI Ultra w 2026 roku?

Nowy pakiet startowy AI Ultra to 100 $ miesięcznie, w dół z 250 $. Wyższy pakiet kosztuje 200 $. Plan za 100 $ obejmuje dostęp do bety Gemini Spark, 5x limit użycia aplikacji Gemini względem pakietu Pro, 20TB pamięci w chmurze i YouTube Premium.

Czym jest Gemini 3.5 Flash?

Gemini 3.5 Flash to najnowszy model fundamentowy szybkiego poziomu Google, uruchomiony 19 maja 2026. Google twierdzi, że przewyższa Gemini 3.1 Pro w benchmarkach programistycznych, agentowych i multimodalnych, działając przy mniej więcej 4-krotnej prędkości wyjścia porównywalnych modeli frontier. Dostępny w aplikacji Gemini, Search, Antigravity i Gemini API.

Czym jest Antigravity 2.0?

Antigravity to platforma rozwojowa agentów Google. Wersja 2.0 dodaje narzędzia orkiestracji, dzięki którym deweloperzy mogą komponować, planować i nadzorować wiele współdziałających agentów. Celuje w warstwę infrastruktury pod produktami agentowymi.

Co Google ogłosił o inteligentnych okularach na I/O 2026?

Google odsłonił nowe urządzenia „inteligentnych okularów" klasy Android XR, w tym Project Aura opracowany z Xreal. Co najmniej trzy partnerstwa dotyczące inteligentnych okularów startują jesienią 2026, pozycjonując Google między okularami audio-first a pełnymi headsetami XR. Wszystkie napędzane przez Gemini.

Czy Genra zintegruje Gemini Omni?

Tak. Genra jest zbudowana tak, aby integracja nowego modelu była zmianą backendu, a nie zmianą przepływu pracy. Omni Flash zostanie dodany do logiki routingu agenta, gdy tylko stanie się dostępny przez Gemini API. Użytkownicy zobaczą ulepszenia jakości na wyjściu krótkiej formy bez zmiany sposobu pracy.

Czy Veo 3.1 jest nadal dostępne po I/O 2026?

Tak. Veo 3.1 pozostaje dostępne przez Google AI Studio i Vertex AI. Pozostaje opcją klasy produkcyjnej dla dłuższych klipów, wyjścia 4K i przypadków użycia, które potrzebują spójności postaci poprzez ID-embedding — zdolności, których Omni Flash jeszcze nie obsługuje.

Co I/O 2026 znaczy dla twórców wideo AI?

Trzy przesunięcia. Po pierwsze, strategia modelowa rozciąga się teraz na Omni dla krótkiej formy zunifikowanej multimodalnej i Veo 3.1 dla długiej formy i wysokiej rozdzielczości — prawdziwe potoki będą kierować między oboma. Po drugie, myślenie w kategoriach warstwy agentów to teraz konsensus na poziomie platformy, a nie tylko zakład pozycjonujący startup. Po trzecie, edycja konwersacyjna staje się podstawową zdolnością, którą wszystkie narzędzia wideo AI będą musiały dorównać.

O autorze
Chris Sherman zajmuje się technologią wideo AI, architekturami agentowymi i biznesem produkcji kreatywnej. Śledź @GenraAI, aby uzyskać ciągłe relacje z krajobrazu wideo AI po I/O i rozprawy MiniMax (29 maja).