Google I/O 2026 Rückblick: Kein Veo 4 — aber Gemini Omni und Spark machen die Agent-Schicht offiziell

Zwei Monate lang sprach die gesamte KI-Video-Branche über Veo 4. Es kam nicht. Was Google auf der I/O 2026 ankündigte, war größer und seltsamer: ein vereintes multimodales Modell namens Gemini Omni, ein 24/7 in der Cloud lebender Agent namens Spark, eine AI Ultra-Stufe für 100 $, die die Preisuntergrenze für Konsumenten neu setzt, und ein klares Signal, dass Google die Agent-Schicht jetzt als nächsten Plattformkampf sieht. Hier ist der vollständige Bericht.

Sundar Pichai betrat gestern die Bühne im Shoreline Amphitheatre und gab der KI-Video-Branche etwas, das sie nicht erwartet hatte. Es gab kein Veo 4. Es gab überhaupt keine Schlagzeile mit dem Markennamen „Veo". An seiner Stelle stand etwas strategisch Interessanteres: Gemini Omni, ein multimodales Modell, das Text, Bild, Audio und Video nativ in einem einzigen System verarbeitet; Gemini Spark, ein persönlicher KI-Agent, der auf einer Cloud-VM lebt und 24 Stunden am Tag in Ihrem Namen handelt; und eine Preisumstrukturierung, die einen AI Ultra-Plan für 100 $ ins Zentrum von Googles Consumer-KI-Wette stellt.

Die Keynote schrieb das Drehbuch für die nächsten 12 Monate KI-Video neu. Unten ist alles, was Google angekündigt hat, was es tatsächlich bedeutet und wo die KI-Video-Branche am Morgen danach steht.

Gemini Omni: Die Schlagzeile, die niemand vorhergesagt hat

Die folgenreichste Ankündigung war Gemini Omni — eine neue Modellreihe, die Google als das erste wirklich vereinte multimodale Generierungssystem des Unternehmens beschreibt. Während Googles bisheriges Lineup Funktionen über Veo (Video), Imagen (Bild) und andere miteinander verkettete Systeme verteilte, verarbeitet Omni Text, Bild, Audio und Videogenerierung nativ in einem Modell.

Das erste öffentliche Modell im Omni-Framework ist Omni Flash. Es akzeptiert kombinierte Text-, Bild- und Audioeingaben und gibt kurze, filmische Videos mit synchronisiertem Ton aus. Google demonstrierte, wie Nutzer ein Standbild hochladen, Anweisungen laut aussprechen und eine animierte Szene mit nativem Audio zurückbekommen, das auf die gesprochene Anweisung reagiert. Die Bearbeitung ist gesprächsbasiert — einen Clip verfeinern, indem man sagt, was geändert werden soll, statt einen neuen Prompt zu schreiben und von Grund auf neu zu generieren.

Drei Dinge machen Omni strategisch anders als die Veo-Linie:

Ein Modell, kein Stack. Veo 3 hatte bereits natives Audio, aber der breitere kreative Google-Stack verließ sich immer noch auf das Verketten separater Modelle für Bildgenerierung, Audioproduktion und Bearbeitung. Omni faltet diese Kette zusammen. Die strategische Implikation: Google glaubt, dass der nächste Qualitätssprung aus gemeinsamem Training über Modalitäten hinweg kommt, nicht aus weiterem Skalieren reiner Videomodelle.
Weltgestützte Generierung. Demis Hassabis positionierte Omni als Aufbau auf der Weltmodell-Arbeit von Google DeepMind. Der Pitch: Omni erzeugt Videos mit stärkerer räumlicher, zeitlicher und physikalischer Kohärenz, weil das zugrundeliegende Modell eine reichhaltigere interne Weltdarstellung hat. Ob die Ausgabe das in der Praxis beweist, ist eine Frage, die wir im nächsten Quartal benchmarken werden.
Bearbeitung als erstklassige Fähigkeit. Omni wird nicht nur als Generator, sondern auch als Editor positioniert. Gesprächsbasierte Verfeinerung, Szenenwechsel und Remix-artige Operationen sind Teil der Produktoberfläche, nicht einer externen Schicht. Das ist eine bedeutsame Verschiebung in der Produktphilosophie, auf die Wettbewerber reagieren müssen.

Was Omni derzeit nicht kann: Langform. Omni Flash ist Kurzform, und Google war eindeutig, dass längere und fortgeschrittenere Produktions-Workflows geplant sind, aber noch nicht ausgeliefert werden. Wer auf eine 60-Sekunden-Narrative-Generierung in einem Rutsch gehofft hat, wartet weiterhin.

Gemini Spark: Ein 24/7-Persönlicher-Agent in der Cloud

Wenn Omni die Schlagzeile war, bei der die meisten Kommentatoren falsch lagen, dann war Spark die am meisten unterschätzte Ankündigung.

Gemini Spark ist ein persönlicher KI-Agent, der auf einer dedizierten Google-Cloud-VM lebt, kontinuierlich läuft und in Ihrem Namen über Google-Produkte und eine wachsende Liste von Drittanbieter-Diensten via Model Context Protocol (MCP) handelt. Die Produktbeschreibung in Googles eigenen Worten: ein Agent, der „Restaurants buchen, eine Instacart-Bestellung aufgeben und Ihre Posteingangs-Antworten entwerfen kann, während Sie schlafen".

Die strategische Bedeutung ist kaum zu überschätzen. Zwei Jahre lang war Googles Consumer-KI-Geschichte Gemini als Chatbot. Spark ist Googles explizite Aussage, dass der Chatbot der falsche Rahmen war — der richtige Rahmen ist ein autonomer Agent, der über Anwendungen und Zeit hinweg arbeitet. Der Agent liest Ihren Posteingang, führt Aktionen in Ihren Tools aus, plant über Dienste hinweg und meldet zurück. Der Nutzer beschreibt Ergebnisse; Spark übernimmt die Ausführung.

Das ist dieselbe These, über die die KI-Video-Branche im letzten Jahr gestritten hat, angewendet auf allgemeine Produktivität. Die Agent-Schicht ist nicht mehr nur eine Startup-Positionierungswette. Sie ist jetzt Googles Positionierungswette.

Preis ist hier wichtig. Spark ist hinter der neuen AI Ultra-Stufe für 100 $/Monat verriegelt und rollt nächste Woche in der Beta für US-Abonnenten aus. Allein der Preis signalisiert, dass Google glaubt, es gebe eine bedeutende Population von Nutzern, die bereit ist, neunmal mehr als die Gemini Pro-Stufe für 11 $ zu zahlen, um einen Agenten zu bekommen, der tatsächlich Dinge erledigt.

Gemini 3.5: Das Foundation-Update

Unter den Omni- und Spark-Ankündigungen liegt ein Foundation-Model-Refresh. Gemini 3.5 Flash startete gestern in der Gemini-App, in Search, in Antigravity und in der Gemini API. Googles Behauptung: Es übertrifft Gemini 3.1 Pro bei Coding-, agentischen und multimodalen Benchmarks und läuft dabei mit etwa 4-facher Ausgabetoken-Geschwindigkeit vergleichbarer Frontier-Modelle.

Gemini 3.5 Pro ist angekündigt, aber noch nicht allgemein verfügbar. Es ist im Test und kommt nächsten Monat.

Das Muster über Flash, Pro, Omni und Spark hinweg ist konsistent: Jedes Produkt, das Google auf der I/O angekündigt hat, baut auf der Spur agentischer Fähigkeiten auf. Schnellere Befehlsbefolgung, längerer effektiver Kontext, bessere Toolnutzung und zuverlässigere mehrstufige Ausführung. Die Modellschicht wird geformt, um der darüberliegenden Agent-Schicht zu dienen.

Antigravity 2.0: Die Entwicklergeschichte

Antigravity ist Googles Agent-Entwicklungsplattform. Gestern erhielt es ein 2.0-Upgrade mit Fokus auf Orchestrierung — das Entwickler in die Lage versetzt, mehrere Agenten zu komponieren, zu planen und zu überwachen, die miteinander und mit externen Tools interagieren.

Die Relevanz für KI-Video ist indirekt, aber real. Mit immer mehr KI-Video-Tools, die von Single-Model-Wrappern zu echten orchestrierten Pipelines übergehen, wird die zugrundeliegende Infrastruktur zum Ausführen, Überwachen und Debuggen dieser Orchestrierungen zur grundlegenden Abhängigkeit. Antigravity 2.0 ist Googles Versuch, diese Infrastrukturschicht so zu besitzen, wie es die Modellschicht darunter besitzt.

Ob unabhängige Agent-Builder sich auf Googles Infrastruktur stützen oder ihre eigene bauen, ist eine der interessanteren offenen Fragen, die aus dieser Keynote hervorgehen. Die Antwort bestimmt, wie viel von der Agent-Ökonomie Google erfasst und wie viel wirklich offen bleibt.

Die AI Ultra-Stufe für 100 $: Eine Preisuntergrenz-Rücksetzung

Google AI Ultra beginnt jetzt bei 100 $ pro Monat, mit einer höheren Stufe zum Preis von 200 $. Der vorherige Ultra-Plan kostete 250 $. Die neue Einstiegsstufe enthält den Gemini Spark Beta-Zugang, das 5-fache der Gemini-App-Nutzungsgrenze der 20 $ Pro-Stufe, 20 TB Cloudspeicher und YouTube Premium.

Die strategische Lesart ist einfach: Google preist Premium-Consumer-KI aggressiv, um die Early Adopter zu erfassen, die definieren werden, wie sich ein Agent-Produkt anfühlt. Bei 100 $/Monat steht Spark jetzt im direkten Wettbewerb mit dem oberen Ende der ChatGPT Pro- und Claude-Consumer-Stufen. Die Agentenfunktion ist der Unterscheidungsfaktor — und es ist eine Funktion, von der Wettbewerber innerhalb der nächsten 12 Monate Versionen ausliefern müssen, oder die Produktivitäts-Agent-Kategorie aufgeben.

Für Creator und Operatoren lautet die relevante Frage, ob 100 $/Monat für einen persönlichen Agenten die Arbeit bedeutsam beschleunigt. Die ehrliche frühe Antwort: Es hängt ganz davon ab, ob die Spark-Beta dem Demo gerecht wird. Demos sind Demos. Wir werden es in 90 Tagen wissen.

Android XR und Project Aura: Die Hardware-Oberfläche

Google enthüllte auch neue „intelligente Brillen"-Geräte, darunter Project Aura, die XR-Smart-Brille, die in Partnerschaft mit Xreal entwickelt wurde. Mindestens drei Smart-Glasses-Partnerschaften starten dieses Jahr und positionieren Google zwischen Metas Audio-first-Ray-Bans und vollständigen XR-Headsets.

Der KI-Aspekt: Diese sind Gemini-betrieben. Live-Visualkontext, Sprachinteraktion und agentisches Handeln — alles tragbar. Für KI-Video sind die Implikationen nachgelagert, aber real. Eine tragbare Kamera mit Gemini-Kontext wird zu einem permanenten Eingabegerät für die Videoerstellung, sowohl zur Referenzaufnahme als auch zur Live-Bearbeitung unterwegs. Wir sind 18 Monate davon entfernt, dass dies für Produktions-Workflows relevant wird. Wir sind null Monate davon entfernt, dass es für Consumer-Demos relevant wird.

Android 17: Das OS als Intelligenzschicht

Sameer Samats Android-Update positionierte das OS selbst als Wandel „von einem Betriebssystem zu einem Intelligenzsystem". Der Rahmen — Gemini versteht Kontext über Apps hinweg, antizipiert Bedürfnisse und handelt im Namen des Nutzers — ist dieselbe Agent-Schicht-These, angewendet auf die Mobilplattform.

Die konkreten Funktionen zählen weniger als der Rahmen. Google verpflichtet sich zu einer Zukunft, in der OS-Schicht und Agent-Schicht zu einem Stack zusammenfallen, alles laufend auf Gemini-Foundation-Modellen. Für Entwickler bedeutet das: Agent-bewusstes App-Design ist kein optionales Muster mehr; es ist die Grundannahme, um die herum Google die Plattform baut.

Was nicht kam: Die Abwesenheit von Veo 4

Die am meisten erwartete Ankündigung, die nicht stattfand: Veo 4. Es gab keine Veo 4-Enthüllung, keinen Veo 4-Zeitplan und keine explizite Bestätigung, dass Veo zugunsten der Omni-Linie eingestellt wird.

Die wahrscheinlichste Lesart: Google konsolidiert seine generativen Videoanstrengungen unter Omni, statt die parallele Veo-Entwicklung fortzusetzen. Omni Flash wird als neuer Startpunkt positioniert. Veo 3.1 bleibt die produktionsgrade Option für Anwendungsfälle, die Omni Flash noch nicht abdeckt — insbesondere längere Einzelaufnahme-Generierung, 4K-Ausgabe und ID-Embedding-Charakter-Konsistenz, von denen Omni Flash derzeit keine unterstützt.

Für die breitere KI-Video-Branche ist das ein bedeutsamer Schwenk. 18 Monate Konversation über „was wird Veo als nächstes tun" wurden durch „was ist Omni" ersetzt. Operatoren mit Veo-spezifischer Automatisierung müssen abwägen, ob sie auf die Reifung von Omni für Langform warten oder die Produktion auf absehbare Zeit auf Veo 3.1 halten. Wahrscheinlich beides, parallel, bei unterschiedlichen Inhaltstypen.

Was das für KI-Video-Operatoren bedeutet

Wenn man einen Schritt zurücktritt von den einzelnen Ankündigungen, haben sich gestern drei Dinge geändert, die KI-Video für das nächste Jahr prägen werden.

Erstens, die Modellstrategie wurde auf nützliche Weise unordentlicher. Omni ist eine vereinte multimodale Wette, aber Omni Flash ist nur Kurzform. Veo 3.1 erledigt weiterhin die schwerere Arbeit für längere Clips und höhere Auflösungen. Echte Produktions-Pipelines werden beide nutzen, zwischen ihnen routen und dynamisch wechseln, während Omni reift. Die Agent-Schicht ist dort, wo diese Routing-Logik lebt.

Zweitens, Agent-Schicht-Denken ist jetzt Konsens. Spark ist Google, das laut sagt, dass der Chatbot-Rahmen ein Übergangsschritt war und das Ziel ein autonomer Agent ist. Jedes Consumer- und Enterprise-KI-Produktteam, das darüber debattiert hat, ob es „einen Assistenten" oder „einen Agenten" bauen soll, hat eine geklärte Antwort erhalten. Die Agent-Schicht ist dort, wo sich der Wettbewerb hinbewegt.

Drittens, gesprächsbasierte Bearbeitung verändert Creator-Workflows. Omnis Betonung der Bearbeitung im Chat — einen Clip verfeinern, indem man beschreibt, was geändert werden soll — faltet das frühere Zwei-Schritt „Generieren-dann-Bearbeiten" zusammen. Für KI-Video-Creator ist das eine bedeutsame UX-Vereinfachung, die Wettbewerber matchen sollen. Genras Pipeline unterstützt bereits gesprächsbasierte Iteration; erwarten Sie, dass jede ernsthafte KI-Video-Plattform innerhalb von sechs Monaten eine Version davon ausliefert.

Was Genra als Nächstes tut

Ein paar ehrliche Anmerkungen dazu, wohin Genra von hier aus geht.

Omni Flash wird integriert, sobald es über die Gemini API verfügbar ist. Die Agent-Schicht, die Genra gebaut hat, wurde gerade deshalb modellagnostisch entworfen, damit Ergänzungen wie Omni Backend-Änderungen werden, keine Workflow-Änderungen. Nutzer werden bessere Kurzform-Ausgaben sehen, wenn die Routing-Logik anfängt, Omni Flash für die Shots auszuwählen, die es am besten kann. Langform-, 4K- und Hochkonsistenz-Anwendungsfälle laufen weiter auf Veo und Seedance.

Sparks Positionierung als 24/7 in der Cloud lebender Agent ist die nächstmögliche Bestätigung, die wir für die Agent-Schicht-These hätten erbitten können. Genra ist ein domänenspezifischer Agent für die Videoproduktion. Spark ist ein universeller Agent für persönliche Produktivität. Beide existieren bequem nebeneinander — so wie ein CRM-Agent und ein Coding-Agent neben einem allgemeinen Produktivitätsassistenten existieren.

Der größere Wettbewerbsrahmen: Da Google sich jetzt auf Plattformebene zur Agent-Schicht bekennt, lautet die Frage für jedes KI-Video-Startup nicht mehr „sind Agenten die Zukunft" — das ist geklärt. Die Frage ist, welche domänenspezifischen Agenten in ihrer Kategorie zur vertrauenswürdigen Wahl werden. Für KI-Video ist das die Frage, für deren Beantwortung Genra gebaut wurde.

Wichtige Erkenntnisse

Google I/O 2026 brachte kein Veo 4. Die Schlagzeile zum Videobereich war Gemini Omni, ein vereintes multimodales Modell, das Text-, Bild-, Audio- und Videogenerierung in einem einzigen System verarbeitet, mit Omni Flash als erstem öffentlichen Modell.
Gemini Spark, ein 24/7 in der Cloud lebender persönlicher Agent, der über Google-Produkte und MCP-verbundene Drittanbieter-Dienste handelt, ist die strategisch bedeutsamste Ankündigung. Sie verpflichtet Google zur Agent-Schicht als nächstem Plattformkampf.
Gemini 3.5 Flash startete gestern; Gemini 3.5 Pro ist für nächsten Monat im Test. Jedes Foundation-Update wurde im Rahmen agentischer Fähigkeiten formuliert, nicht nur Intelligenz.
AI Ultra wurde auf 100 $/Monat Einstieg neu bepreist (200 $ Top-Stufe), gesenkt vom vorherigen Ultra-Preis von 250 $. Der Spark Beta-Zugang ist auf die 100 $-Stufe für US-Abonnenten ab nächster Woche begrenzt.
Antigravity 2.0 erweitert Googles Agent-Entwicklungsplattform um Orchestrierungstools — der Infrastruktur-Move für Agent-Builder.
Android XR und Project Aura Smart-Glasses sowie Android 17s „Intelligenzsystem"-Framing erweitern die Agent-These auf Hardware- und OS-Schichten.
Omni Flash ist nur Kurzform. Veo 3.1 bleibt das Produktionstool für längeres, höher aufgelöstes, ID-konsistentes Video. Echte Pipelines routen zwischen beiden.
Gesprächsbasierte Bearbeitung als erstklassige Fähigkeit in Omni ist eine Workflow-Verschiebung, die Wettbewerber innerhalb von sechs Monaten matchen müssen.
Genra integriert Omni Flash, sobald der API-Zugang verfügbar ist, wobei Nutzer den Qualitätssprung bei gerouteten Kurzform-Shots stillschweigend sehen. Langform-, 4K- und konsistenzkritische Arbeit läuft weiter auf Veo und Seedance.

Häufig gestellte Fragen

Hat Google auf der I/O 2026 Veo 4 angekündigt?

Nein. Es gab keine Veo 4-Ankündigung. Google stellte stattdessen die Gemini Omni-Modellreihe vor, mit Omni Flash als erstem öffentlich verfügbarem Modell. Die wahrscheinlichste Interpretation: Google konsolidiert generative Videoarbeit unter dem Omni-Framework, statt parallele Veo-Generationen fortzusetzen.

Was ist Gemini Omni?

Gemini Omni ist Googles neue vereinte multimodale Modellreihe, fähig, Text, Bild, Audio und Video nativ aus kombinierten Eingaben zu generieren. Omni Flash ist das erste öffentliche Modell, fokussiert auf Kurzform-Video mit synchronisiertem nativem Audio und gesprächsbasiertem Editieren.

Was ist Gemini Spark?

Gemini Spark ist ein 24/7 in der Cloud lebender persönlicher KI-Agent, der auf einer dedizierten Google-VM läuft, sich mit Google-Produkten und 30+ Drittanbieter-Diensten über MCP integriert und im Namen des Nutzers handelt — buchen, bestellen, entwerfen und Aufgaben verwalten. Er rollt nächste Woche in der Beta für US-AI Ultra-Abonnenten aus.

Wie viel kostet Google AI Ultra 2026?

Die neue AI Ultra-Einstiegsstufe kostet 100 $ pro Monat, gesenkt von 250 $. Eine höhere Stufe kostet 200 $. Der 100 $-Plan enthält den Gemini Spark Beta-Zugang, das 5-fache der Gemini-App-Nutzungsgrenze der Pro-Stufe, 20 TB Cloudspeicher und YouTube Premium.

Was ist Gemini 3.5 Flash?

Gemini 3.5 Flash ist Googles neuestes Fast-Tier-Foundation-Modell, gestartet am 19. Mai 2026. Google behauptet, es übertreffe Gemini 3.1 Pro bei Coding-, agentischen und multimodalen Benchmarks und laufe dabei mit etwa 4-facher Ausgabegeschwindigkeit vergleichbarer Frontier-Modelle. Verfügbar in der Gemini-App, Search, Antigravity und der Gemini API.

Was ist Antigravity 2.0?

Antigravity ist Googles Agent-Entwicklungsplattform. Das 2.0-Release fügt Orchestrierungstools hinzu, sodass Entwickler mehrere interagierende Agenten komponieren, planen und überwachen können. Es zielt auf die Infrastrukturschicht unterhalb von Agent-Produkten.

Was hat Google auf der I/O 2026 zu Smart-Glasses angekündigt?

Google enthüllte neue Android XR-Klasse „intelligente Brillen"-Geräte, darunter Project Aura, entwickelt mit Xreal. Mindestens drei Smart-Glasses-Partnerschaften starten im Herbst 2026 und positionieren Google zwischen Audio-first-Brillen und vollständigen XR-Headsets. Alle Gemini-betrieben.

Wird Genra Gemini Omni integrieren?

Ja. Genra ist so gebaut, dass das Integrieren eines neuen Modells eine Backend-Änderung ist, keine Workflow-Änderung. Omni Flash wird in die Routing-Logik des Agenten aufgenommen, sobald es über die Gemini API verfügbar ist. Nutzer werden Qualitätsverbesserungen bei der Kurzform-Ausgabe sehen, ohne ihre Arbeitsweise zu ändern.

Ist Veo 3.1 nach der I/O 2026 noch verfügbar?

Ja. Veo 3.1 bleibt über Google AI Studio und Vertex AI verfügbar. Es bleibt die produktionsgrade Option für längere Clips, 4K-Ausgabe und Anwendungsfälle, die Charakterkonsistenz über ID-Embedding benötigen — Fähigkeiten, die Omni Flash noch nicht unterstützt.

Was bedeutet die I/O 2026 für KI-Video-Creator?

Drei Verschiebungen. Erstens umspannt die Modellstrategie jetzt Omni für vereinte multimodale Kurzform und Veo 3.1 für Langform und hohe Auflösung — echte Pipelines routen zwischen beiden. Zweitens ist Agent-Schicht-Denken jetzt Konsens auf Plattformebene, nicht nur eine Startup-Positionierungswette. Drittens wird gesprächsbasiertes Editieren zur Grundfunktionalität, die alle KI-Video-Tools matchen müssen.

Über den Autor
Chris Sherman berichtet über KI-Video-Technologie, Agent-Architekturen und das Geschäft der kreativen Produktion. Folge @GenraAI für laufende Berichterstattung über die Post-I/O-KI-Videolandschaft und die MiniMax-Anhörung (29. Mai).