Google I/O 2026 Countdown: Veo 4, Gemini 4 und die nächste KI-Video-Revolution

Google I/O 2026 ist in drei Wochen. Google hat zwei Jahre in Folge ein neues Veo-Modell auf der I/O vorgestellt. Das Muster ist eindeutig, die Leaks häufen sich und die Wettbewerbslage war noch nie günstiger. Hier ist alles, was wir erwarten.

Termin vormerken: 19.–20. Mai 2026. Google I/O kehrt zurück, und alles deutet auf die größte KI-Video-Ankündigung des Jahres hin.

Google hat die I/O bereits zweimal als Bühne für große Veo-Launches genutzt. Veo 1 wurde auf der I/O 2024 vorgestellt und machte die Welt mit den Videogenerierungsfähigkeiten von Google DeepMind bekannt. Veo 3 erschien auf der I/O 2025 und lieferte native Audiogenerierung sowie eine dramatisch verbesserte Realitätstreue, die die gesamte Branche überraschte.

Jetzt, da OpenAIs Sora praktisch tot ist, die chinesische Modelllandschaft sich über HappyHorse, Seedance und Kling fragmentiert und Runway Mühe hat, Schritt zu halten, befindet sich Google in einer Position, die es im KI-Bereich selten einnimmt: als klarer Spitzenreiter. Der westliche KI-Videomarkt gehört Google -- es muss ihn nur nicht verlieren.

Dieser Artikel schlüsselt alles auf, was wir über Veo 4, Gemini 4 und die weiteren Ankündigungen wissen und erwarten, die das nächste Jahr der KI-Videogenerierung prägen könnten.

Wann und Wo: Eckdaten zur Google I/O 2026

Datum: 19.–20. Mai 2026

Keynote: 19:00 Uhr MESZ (13:00 Uhr ET / 10:00 Uhr PT) am 19. Mai. Hier werden die großen Ankündigungen gemacht. Sundar Pichai und Demis Hassabis werden mit ziemlicher Sicherheit die KI-Segmente anführen, wie in den vergangenen zwei Jahren.

Livestream: Kostenlos verfügbar unter io.google. Keine Anmeldung für den Keynote-Stream erforderlich. Entwickler-Sessions am 19. und 20. Mai bieten technische Vertiefungen.

Format: Hybrid-Event. Persönliche Teilnahme im Shoreline Amphitheatre in Mountain View, Kalifornien, mit vollem virtuellem Zugang für alle anderen. Im Anschluss an die Keynote folgen Entwickler-Sessions, Codelabs und Hands-on-Demos.

Wenn Sie nur eine Stunde Zeit haben, schauen Sie die Keynote. Google hat seine größten Produktenthüllungen stets in die ersten 90 Minuten gepackt, wobei Veo-Ankündigungen typischerweise 30–45 Minuten nach Beginn der Präsentation erfolgen.

Veo 4: Was wir erwarten

Basierend auf Patentanmeldungen, geleakten Benchmarkdaten, Branchenanalysen und der Entwicklungslinie von Veo 3 und 3.1 ist hier, was Veo 4 voraussichtlich liefern wird.

Multi-Szenen-Narrativgenerierung

Das ist die Hauptfunktion. Veo 3.1 führte verkettete Generierung ein, die es Nutzern ermöglichte, Sequenzen von bis zu 60 Sekunden durch das Zusammenfügen kürzerer Clips zu erstellen. Es funktionierte, aber die Nahtstellen waren sichtbar. Szenenübergänge konnten abrupt wirken, und die visuelle Konsistenz über Segmente hinweg erforderte sorgfältiges Prompting.

Von Veo 4 wird erwartet, dass es 20–30 Sekunden lange Multi-Szenen-Narrative in einem einzigen Durchgang generiert. Das bedeutet: Das Modell handhabt Szenenübergänge, Kamerabewegungen und den narrativen Fluss intern, statt auf Nachbearbeitung oder Verkettung angewiesen zu sein. Stellen Sie sich den Unterschied vor zwischen dem Zusammenschneiden von fünf Einzelfotos und dem Drehen eines durchgehenden Videos. Die Kohärenz ist grundlegend anders.

Für Kreative bedeutet das, eine kurze Geschichte beschreiben zu können -- eine Figur betritt einen Raum, setzt sich, greift nach einem Gegenstand, reagiert -- und ein stimmiges Ergebnis zu erhalten, ohne jeden einzelnen Moment manuell orchestrieren zu müssen.

Echte native 4K-Generierung

Veo 3 generiert nativ bei 720p und skaliert auf 4K hoch. Das Upscaling ist gut, aber geschulte Augen erkennen die Artefakte: leicht unscharfe Texturen, gelegentlich halluzinierte Details in feinen Mustern und ein subtiler „KI-Glanz" bei bestimmten Lichtverhältnissen.

Von Veo 4 wird erwartet, dass es bei echter pixelgenauer nativer 4K-Auflösung generiert. Kein Upscaling-Schritt. Jedes Pixel wird in der Zielauflösung erzeugt. Das ist für professionelle Anwendungsfälle enorm wichtig: Broadcast-Inhalte, Digital Signage, Großformatdisplays und Kinoprojektion erfordern alle echtes hochauflösendes Quellmaterial.

Die Rechenkosten für native 4K-Generierung sind beträchtlich, weshalb diese Fähigkeit Zeit gebraucht hat. Googles TPU-v6-Infrastruktur, die im Laufe des Jahres 2025 in großem Maßstab eingesetzt wurde, könnte sie endlich wirtschaftlich tragbar machen.

Charakterkonsistenz durch ID-Embedding

Einer der größten Schmerzpunkte bei KI-Videos heute ist die Charakterkonsistenz. Generieren Sie ein Video einer Person, die durch einen Park spaziert, und dann ein zweites Video derselben Figur in einem Café -- Sie erhalten zwei völlig unterschiedlich aussehende Personen. Das zerstört das Storytelling und schränkt kommerzielle Anwendungen ein.

Gerüchten zufolge führt Veo 4 ein ID-Embedding-System ein, das 3–5 Referenzbilder einer Figur akzeptiert und deren Erscheinungsbild über generierte Clips hinweg beibehält. Haarfarbe, Gesichtsstruktur, Kleidungsstil, Körperproportionen -- alles fixiert und konsistent.

Das ist im Bereich der KI-Bildgenerierung nicht völlig neu (IP-Adapter und ähnliche Ansätze existieren für Bildmodelle), aber es robust in der Videogenerierung umzusetzen und dabei die zeitliche Konsistenz zu wahren, ist eine erhebliche technische Herausforderung. Wenn Google das liefert, wäre es ein echtes Alleinstellungsmerkmal gegenüber allen Wettbewerbern.

Generierungsgeschwindigkeit: 40 % schneller

Die Generierungszeiten von Veo 3 liegen bei 2–4 Minuten für einen Standard-8-Sekunden-Clip bei 720p. Das ist machbar, aber alles andere als Echtzeit. Geleakte Benchmarkdaten deuten darauf hin, dass Veo 4 eine Reduktion der Generierungszeit um 40 % anstrebt, was Standardclips auf etwa 70–90 Sekunden bringen würde.

Diese Verbesserung resultiert vermutlich aus einer Kombination von Architekturoptimierungen (effizientere Attention-Mechanismen, bessere Latentraumkompression) und Hardwareverbesserungen (TPU-v6-Durchsatz). Schnellere Generierung spart nicht nur Zeit; sie verändert den kreativen Workflow grundlegend, indem sie deutlich schnellere Iterationen ermöglicht.

Verbesserte Physik und Bewegungsverständnis

KI-Videomodelle haben eine bekannte Schwäche: Physik. Objekte, die fallen sollten, fallen nicht. Flüssigkeiten, die spritzen sollten, bleiben statisch. Stoff, der fließen sollte, hängt steif herunter. Veo 3 hat das im Vergleich zu früheren Modellen deutlich verbessert, aber Grenzfälle bleiben bestehen.

Von Veo 4 wird erwartet, dass es dedizierte Physiksimulationsmodule integriert, die folgende Bereiche verbessern:

Fluiddynamik: Wasser, Rauch, Feuer und fließende Flüssigkeiten mit realistischem Verhalten
Stoffsimulation: Gewebe, Haare und flexible Materialien, die natürlich auf Bewegung und Wind reagieren
Starrkörperinteraktionen: Objekte, die mit korrektem Gewicht und Impuls kollidieren, sich stapeln und fallen
Lichttransport: Reflexionen, Brechungen und Kaustiken, die korrekt auf Szenenänderungen reagieren

Diese Verbesserungen sind inkrementell, nicht revolutionär. Aber in der Summe rücken sie die Ausgabe näher an die Schwelle, an der KI-generiertes Video in den meisten Betrachtungskontexten nicht mehr von echtem Filmmaterial zu unterscheiden ist.

Prognosemarkt-Quoten

Stand Ende April 2026 beziffern Prognosemärkte die Wahrscheinlichkeit eines Veo-4-Launches vor Juni 2026 auf etwa 69 %. Die verbleibenden 31 % berücksichtigen Szenarien, in denen Google auf Q3 verschiebt oder die Veröffentlichung umbenennt (wie sie es taten, als sie in einigen Märkten die „Veo 2"-Bezeichnung übersprangen). Der Konsens: Veo 4 auf der I/O ist das wahrscheinlichste Ergebnis, aber keine Gewissheit.

Gemini 4: Das Fundament unter Veo 4

Veo existiert nicht isoliert. Jede Veo-Generation wurde auf der entsprechenden Generation von Googles Gemini-Basismodell aufgebaut, und Veo 4 wird mit ziemlicher Sicherheit auf Gemini 4 laufen.

Warum ist das für Video relevant? Weil das Basismodell bestimmt, wie das System die Welt versteht. Wenn Sie Veo eine Szene beschreiben, ist es Geminis Sprachverständnis, das Ihre Absicht interpretiert, Geminis visuelles Wissen, das die Szenenkomposition bestimmt, und Geminis Schlussfolgerungsfähigkeiten, die komplexe mehrstufige Anweisungen verarbeiten.

Was Gemini 4 voraussichtlich mitbringt

Erweitertes Kontextfenster: Gemini 2 erweiterte auf 2 Millionen Token. Gemini 4 könnte weiter gehen und längere sowie detailliertere Szenenbeschreibungen, mehrseitige Storyboards und reichhaltigeres Referenzmaterial ermöglichen.
Stärkeres multimodales Schlussfolgern: Besseres Verständnis von räumlichen Beziehungen, zeitlichen Abfolgen und Ursache-Wirkungs-Ketten. Das übersetzt sich direkt in kohärentere Videogenerierung bei komplexen Prompts.
Bessere Befolgung von Anweisungen: Gemini 3 (das Veo 3 antreibt) hat manchmal Schwierigkeiten mit zusammengesetzten Anweisungen („mache X, dann Y, aber achte durchgehend auf Z"). Gemini 4 sollte solche zuverlässiger verarbeiten.
Nativer Werkzeugeinsatz: Von Gemini 4 wird erwartet, dass es agentische Fähigkeiten verbessert. Das bedeutet, Veo 4 könnte während der Generierung potenziell externe Tools aufrufen -- Farbkorrektur anpassen, Stilreferenzen anwenden oder Echtzeitdaten in den Prozess einbeziehen.

Die Beziehung zwischen Gemini und Veo ist symbiotisch. Verbesserungen im Basismodell kaskadieren in jedes darauf aufbauende Produkt. Ein besseres Gemini bedeutet automatisch ein besseres Veo.

Die Veo-Zeitleiste: Ein Beschleunigungsmuster

Ein Blick auf die gesamte Veo-Zeitleiste offenbart eine klare Beschleunigung in Googles Veröffentlichungsrhythmus und Fähigkeitswachstum.

Veröffentlichung	Datum	Wichtigste Fähigkeiten
Veo 1	Mai 2024 (I/O)	Erstes öffentliches Videogenerierungsmodell von Google DeepMind. 1080p-Ausgabe. Einfache Text-zu-Video-Generierung. Eingeschränkter Zugang über Warteliste.
Veo 2	Dezember 2024	Deutlicher Qualitätssprung. Verbesserte Bewegungsrealismus. Breiterer Zugang über VideoFX und Vertex AI. Noch kein Audio.
Veo 3	Mai 2025 (I/O)	Native Audiogenerierung. Dramatisch verbesserte Realitätstreue. Dialog und Soundeffekte werden zusammen mit dem Video generiert. Branchenführende Qualitätsbenchmarks.
Veo 3.1	Januar 2026	Verkettete Generierung für 60-Sekunden-Sequenzen. Verbesserte zeitliche Konsistenz. Bessere Feinsteuerung von Kamerabewegungen.
Veo 3.1 Gratisstufe	April 2026	Kostenloser Zugang zu Veo 3.1 über Google AI Studio. Ausgabe mit Wasserzeichen. Demokratisierter Zugang zur modernsten Videogenerierung.
Veo 4	Erwartet Mai 2026 (I/O)	Natives 4K. Multi-Szenen-Narrative. Charakterkonsistenz. 40 % schnellere Generierung. Verbesserte Physik.

Das Muster ist unverkennbar. Google hat sich in genau zwei Jahren von einer Forschungsvorschau zum branchenführenden Videogenerierungssystem entwickelt. Jede Veröffentlichung hat die kritischste Einschränkung der vorherigen Version adressiert: Veo 2 behob die Qualität, Veo 3 fügte Audio hinzu, Veo 3.1 erweiterte die Dauer, und Veo 4 soll Konsistenz und Auflösung lösen.

Auch der Abstand zwischen den großen Releases hat sich verkürzt. Von Veo 1 zu Veo 2 vergingen sieben Monate. Von Veo 2 zu Veo 3 fünf Monate. Falls Veo 4 zur I/O 2026 erscheint, sind das zwölf Monate seit Veo 3, aber mit einem bedeutenden Zwischenupdate (3.1). Effektiv liefert Google alle fünf bis sechs Monate größere Verbesserungen.

Warum die Google I/O 2026 wichtiger ist als sonst

Jedes Jahr behaupten Techjournalisten, die bevorstehende Konferenz sei „die wichtigste überhaupt". Dieses Jahr hat die Behauptung Substanz. Die Wettbewerbslandschaft im Bereich KI-Video hat sich seit der I/O 2025 dramatisch verschoben.

Sora ist tot

OpenAIs Sora startete Anfang 2024 mit enormem Hype, durchlief eine problematische eingeschränkte Veröffentlichung und wurde faktisch eingestellt. Das Team wurde umstrukturiert, die Produkt-Roadmap herabgestuft, und OpenAI hat einen strategischen Rückzug aus kreativen Tools signalisiert, um sich auf Reasoning und Enterprise-Fähigkeiten zu konzentrieren. Soras API wurde nie öffentlich bereitgestellt, und das Produkt hat seit über einem Jahr kein nennenswertes Update erhalten.

Das hinterlässt ein Vakuum. Zwei Jahre lang lautete die KI-Video-Debatte „Google gegen OpenAI". Diese Rahmung ist vorbei. Google konkurriert nun gegen eine fragmentierte Landschaft kleinerer Akteure und chinesischer Labore.

Chinesische Modelle auf dem Vormarsch

Während sich der westliche KI-Videomarkt um Google konsolidierte, haben chinesische Labore aggressiv geliefert:

HappyHorse (Meituan): Etablierte sich Anfang 2026 als erstklassiges Modell, mit besonders starker Leistung bei menschlichen Bewegungen und Gesichtsausdrücken. Eingeschränkte Verfügbarkeit außerhalb Chinas, aber die technischen Fähigkeiten sind beeindruckend.
Seedance (ByteDance): TikToks Mutterkonzern trat mit einem Modell in den KI-Videogenerierungsmarkt ein, das bei kurzformatigem, für Social Media optimiertem Content glänzt. Starke Integration mit TikToks Creator-Tools.
Kling 2.0 (Kuaishou): Das international am besten zugängliche chinesische Modell. Kling 2.0 verbesserte den Realismus erheblich und bietet wettbewerbsfähige Preise. Beliebt bei Kreativen, die hohes Volumen zu niedrigeren Kosten benötigen.

Diese Modelle haben Anfang 2026 mehrere Community-Benchmarks dominiert. Google braucht Veo 4, um seine technische Führung nicht nur zu halten, sondern erneut zu behaupten.

Die Enterprise-Dimension

Jenseits von Benchmarks und Consumer-Buzz ist der eigentliche Preis die Unternehmensadoption. Große Medienunternehmen, Werbeagenturen und Content-Plattformen treffen gerade langfristige Entscheidungen über KI-Video-Infrastruktur. Diese Entscheidungen fallen jetzt, im zweiten Quartal 2026, und sie sind typischerweise für 2–3-jährige Vertragszyklen bindend.

Wenn Veo 4 auf der I/O einen überzeugenden Sprung liefert, kann Google über Vertex AI Unternehmenskunden binden, bevor die Konkurrenz reagieren kann. Enttäuscht die Ankündigung, werden diese Kunden auf Runway, Kling und möglicherweise direkte Partnerschaften mit chinesischen Laboren diversifizieren.

Was es sonst auf der Google I/O 2026 zu beobachten gibt

Veo 4 wird voraussichtlich die Schlagzeilen dominieren, aber die I/O 2026 hat weitere beachtenswerte Ankündigungen.

KI-Brille unter 50 Gramm

Google wird voraussichtlich eine neue Generation von AR-Brillen ankündigen, die unter 50 Gramm wiegen und damit die leichtesten KI-gestützten Brillen auf dem Markt wären. Angetrieben von Gemini könnten sie der erste wirklich ganztägig tragbare KI-Begleiter sein. Die Integration in Googles KI-Stack (Suche, Maps, Translate, Assistent) verschafft ihnen einen funktionalen Vorteil gegenüber Wettbewerbern wie Metas Ray-Ban-Partnerschaft.

Gemini-Integration in Android

Android 17 soll eine tiefe Gemini-Integration auf Betriebssystemebene bieten. Nicht nur ein Chatbot im Benachrichtigungsbereich, sondern eine KI, die den Bildschirmkontext versteht, appübergreifend handeln kann und komplexe mehrstufige Aufgaben bewältigt. Das wurde seit zwei Jahren angedeutet. Die I/O 2026 könnte der Zeitpunkt sein, an dem es tatsächlich ausgeliefert wird.

KI-Agenten-Fähigkeiten (Project Mariner und mehr)

Googles Bemühungen im Bereich agentischer KI haben an Fahrt aufgenommen. Project Mariner (Web-Browsing-Agent), Jules (Coding-Agent) und verschiedene Workspace-Agenten sollen alle bedeutende Updates erhalten. Der Trend ist klar: Google will, dass Gemini Dinge tun kann, nicht nur Fragen beantwortet.

Entwicklertools und API-Updates

Für Entwickler sind Updates zu Vertex AI, Firebase-KI-Integration, Gemini-API-Preisänderungen und neue Modellfähigkeiten in Google AI Studio relevant. Die Veo-API ist besonders wichtig: Breiterer Zugang, bessere Dokumentation und niedrigere Preise würden die Ökosystemadoption beschleunigen.

Wie Veo 4 die KI-Videolandschaft verändern könnte

Wenn Veo 4 auch nur die Hälfte der erwarteten Fähigkeiten liefert, werden die Auswirkungen auf die KI-Videobranche erheblich sein.

Auswirkungen auf Runway

Runway war seit 2023 die Standardwahl für Kreativprofis. Gen-3 Alpha bleibt ein starkes Produkt, aber Runway hat seit über einem Jahr keinen Generationssprung geliefert. Wenn Veo 4 natives 4K und Charakterkonsistenz bietet, während Runway noch bei 720p-Basisauflösung steht, wird die Qualitätslücke schwer zu ignorieren. Runways Vorteil lag immer in der Benutzeroberfläche und den kreativen Tools, nicht in der rohen Modellqualität. Dieser Vorteil schrumpft, wenn Google seine eigene UX verbessert.

Auswirkungen auf Kling und chinesische Modelle

Kling, Seedance und HappyHorse haben bei technischen Benchmarks aufgeholt, stehen aber vor Distributionsherausforderungen außerhalb Asiens. Veo 4 in Googles Größenordnung (integriert in YouTube, Google Ads, Workspace und Android) hat einen Distributionsvorteil, den kein chinesisches Modell auf westlichen Märkten erreichen kann. Chinesische Modelle werden allerdings wahrscheinlich weiterhin beim Preis-Leistungs-Verhältnis für budgetbewusste Kreative führen.

Auswirkungen auf Pika, Luma und kleinere Anbieter

Kleinere KI-Video-Startups haben den schwierigsten Weg vor sich. Sie können weder Googles Rechenressourcen matchen, noch die Preise der chinesischen Modelle unterbieten, noch mit Runways etablierter Kreativ-Community konkurrieren. Das wahrscheinliche Ergebnis ist weitere Konsolidierung: Übernahmen, Pivots zu Nischenanwendungsfällen oder Fokus auf bestimmte Branchen (Immobilien, E-Commerce, Bildung), in denen spezialisierte Tools noch Wert haben.

Der Enterprise-Standard

Das folgenreichste Ergebnis: Wenn Veo 4 wirklich das Beste seiner Klasse ist, wird Google zur Standard-Enterprise-Wahl für KI-Video. Nicht weil Unternehmen Google lieben, sondern weil Einkaufsabteilungen Googles Infrastruktur, Sicherheit und Beständigkeit vertrauen. Ein Fortune-500-Unternehmen, das 2026 KI-Video-Tooling evaluiert, wird mit ziemlicher Sicherheit zuerst Vertex AI prüfen. Ein starkes Veo 4 wandelt diese Evaluierung in einen unterschriebenen Vertrag um.

Genras Perspektive

Wir beobachten die Entwicklung von Veo 4 genau. Als Multi-Modell-Orchestrierungsplattform integriert Genra die jeweils besten verfügbaren Modelle und leitet Generierungsanfragen an dasjenige Modell weiter, das die jeweilige Aufgabe am besten erfüllt. Sobald Veo 4 über die API verfügbar ist, wird Genra es sofort integrieren und sicherstellen, dass unsere Nutzer automatisch Zugang zu den neuesten Fähigkeiten erhalten, ohne ihren Workflow ändern zu müssen.

Unser Ansatz war schon immer modellagnostisch. Heute bedeutet das Veo 3.1, Kling und andere führende Modelle. Morgen könnte es Veo 4 für 4K-Narrativsequenzen und spezialisierte Modelle für bestimmte Stile oder Formate bedeuten. Der Nutzer sollte sich nicht darum kümmern müssen, welches Modell sein Video generiert. Er sollte einfach das bestmögliche Ergebnis bekommen.

Die wichtigsten Erkenntnisse

Google I/O 2026 findet am 19.–20. Mai statt, mit der Keynote um 19:00 Uhr MESZ (13:00 Uhr ET / 10:00 Uhr PT). Veo 4 ist die am meisten erwartete Ankündigung, wobei Prognosemärkte eine Wahrscheinlichkeit von 69 % für einen Launch vor Juni angeben.
Veo 4 soll native 4K-Generierung, 20–30 Sekunden lange Multi-Szenen-Narrative in einem Durchgang, Charakterkonsistenz per ID-Embedding, 40 % schnellere Generierung und verbesserte Physiksimulation einführen.
Gemini 4 wird voraussichtlich als Veo 4s Basismodell dienen und stärkeres multimodales Schlussfolgern, erweiterte Kontextfenster und bessere Befolgung von Anweisungen mitbringen.
Googles Veo-Zeitleiste zeigt eine klare Beschleunigung: von der Forschungsvorschau (Veo 1) zum Branchenführer (Veo 3) in zwei Jahren, mit größeren Updates alle fünf bis sechs Monate.
Die Wettbewerbslage war für Google noch nie günstiger. Sora ist tot, OpenAI hat sich aus kreativen Tools zurückgezogen, und chinesische Modelle stehen auf westlichen Märkten vor Distributionsherausforderungen.
Die Unternehmensadoption ist der eigentliche Preis. Unternehmen, die im zweiten Quartal 2026 Entscheidungen über KI-Video-Infrastruktur treffen, werden die I/O als Bestätigung betrachten, dass Google die sichere Langzeitwette ist.
Selbst wenn Veo 4 enttäuscht, werden die weiteren I/O-2026-Ankündigungen (KI-Brille, Android-Gemini-Integration, Agenten-Fähigkeiten) die KI-Landschaft für das nächste Jahr prägen.

Häufig gestellte Fragen

Wann findet die Google I/O 2026 statt?

Die Google I/O 2026 ist für den 19.–20. Mai 2026 geplant. Die Eröffnungs-Keynote beginnt um 19:00 Uhr MESZ (13:00 Uhr ET / 10:00 Uhr PT) am 19. Mai und wird kostenlos unter io.google gestreamt. Entwickler-Sessions laufen über beide Tage.

Wird Veo 4 auf der Google I/O 2026 angekündigt?

Es ist das wahrscheinlichste Szenario. Google hat Veo 1 auf der I/O 2024 und Veo 3 auf der I/O 2025 angekündigt. Prognosemärkte geben Veo 4 eine Wahrscheinlichkeit von etwa 69 % für einen Launch vor Juni 2026, wobei die I/O der offensichtliche Veranstaltungsort ist. Allerdings könnte Google auch ein Veo-3.5-Update statt eines vollen Generationssprungs ankündigen.

Welche Funktionen werden von Veo 4 erwartet?

Basierend auf Leaks und Analysen: Native 4K-Videogenerierung (nicht hochskaliert), Multi-Szenen-Narrativgenerierung von bis zu 20–30 Sekunden in einem einzigen Durchgang, Charakterkonsistenz über ein ID-Embedding-System mit 3–5 Referenzbildern, 40 % schnellere Generierung im Vergleich zu Veo 3 und verbesserte Physiksimulation für Flüssigkeiten, Stoffe und Starrkörperinteraktionen.

Ist Veo 4 besser als Sora?

Sora wurde von OpenAI faktisch aufgegeben, mit keinem nennenswerten Update seit über einem Jahr und keiner öffentlichen API. Es gibt keine aktuelle Version von Sora zum Vergleich. Veo 3.1 übertrifft bereits die letzte öffentlich verfügbare Sora-Ausgabequalität in den meisten Benchmarks. Wenn Veo 4 wie erwartet liefert, wird es der klare Marktführer im Westen sein, ohne direkten OpenAI-Konkurrenten.

Wie schneidet Veo 4 im Vergleich zu chinesischen KI-Videomodellen wie Kling und Seedance ab?

Chinesische Modelle wie HappyHorse, Seedance und Kling 2.0 haben in Community-Benchmarks Anfang 2026 stark abgeschnitten, insbesondere bei menschlichen Bewegungen und Gesichtsausdrücken. Von Veo 4 wird erwartet, dass es deren technische Qualität erreicht oder übertrifft und dabei Googles Distributionsvorteil bietet: Integration in YouTube, Google Ads, Vertex AI und Android. Chinesische Modelle werden voraussichtlich einen Preisvorteil behalten.

Wird Veo 4 kostenlos nutzbar sein?

Google hat Veo 3.1 im April 2026 kostenlos über Google AI Studio verfügbar gemacht (mit Wasserzeichen). Ein ähnliches Muster für Veo 4 ist denkbar, aber wahrscheinlich verzögert. Erwarten Sie zunächst Zugang über Vertex AI (kostenpflichtig, unternehmensorientiert) und Google AI Studio (eingeschränkte Gratisstufe), mit breiterem kostenlosem Zugang Monate nach dem Launch.

Was ist Gemini 4 und wie hängt es mit Veo 4 zusammen?

Gemini ist Googles Basismodell, das Veo und viele andere Google-KI-Produkte antreibt. Jede Veo-Generation wurde auf der entsprechenden Gemini-Generation aufgebaut. Von Gemini 4 wird erwartet, dass es stärkeres multimodales Schlussfolgern, größere Kontextfenster und bessere Befolgung von Anweisungen mitbringt -- all das verbessert direkt Veo 4s Fähigkeit, komplexe Videogenerierungs-Prompts zu verstehen und auszuführen.

Wie kann ich die Google I/O 2026 verfolgen?

Der Keynote-Livestream ist kostenlos unter io.google verfügbar, ab 19:00 Uhr MESZ (13:00 Uhr ET / 10:00 Uhr PT) am 19. Mai 2026. Keine Anmeldung erforderlich. Entwickler-Sessions und technische Vertiefungen sind über beide Tage verfügbar. Google veröffentlicht alle Sessions typischerweise innerhalb von 24 Stunden nach dem Event auf YouTube.

Über den Autor
Das Genra-AI-Team baut Tools, die Kreativen helfen, professionelle Videoinhalte mit KI zu produzieren. Folgen Sie @GenraAI für Updates, Tutorials und ehrliche Einschätzungen zum KI-Videobereich.