Gemini Omni: Was das Pre-I/O-Leak wirklich verrät

2. Mai: ein UI-String. 11. Mai: die ersten generierten Clips. 19.–20. Mai: die Ankündigung. Sechs Tage vor Googles Keynote – das ist über Gemini Omni bekannt, und das ist es nicht.

Ein Leak in zwei Akten

Für ein Modell, das offiziell noch nicht angekündigt wurde, hatte Gemini Omni einen ungewöhnlich gut dokumentierten Vorlauf. Die Spur beginnt am 2. Mai 2026, als ein X-Nutzer einen UI-String tief im Video-Tab von Gemini entdeckte: „Start with an idea or try a template. Powered by Omni." TestingCatalog griff es noch am selben Tag auf. Der String blieb neun Tage stehen, während alle spekulierten.

Dann, am 11. Mai 2026, fiel der zweite Schuh. Generierte Clips – klar produziert von etwas anderem als dem öffentlich verfügbaren Veo 3.1 – wurden aus mindestens einem Gemini-Pro-Account geleakt. Zwei bekamen die größte Aufmerksamkeit: eine Spaghetti-Szene in einem Restaurant am Meer und ein Professor, der trigonometrische Beweise an einer Tafel erarbeitet. Beide wurden innerhalb von 24 Stunden von 9to5Google, Android Authority, Chrome Unboxed und einem Dutzend anderer Medien aufgegriffen.

Das nächste große Ereignis ist die Google I/O 2026 am 19.–20. Mai. Wenn Sie das lesen, sind es wahrscheinlich noch sechs Tage. Google hat bestätigt, dass Gemini- und KI-Updates auf der Agenda stehen. Omni hat man namentlich nicht bestätigt.

Dieser Artikel ist die Momentaufnahme vom 13. Mai – die Mitte der Lücke. Was real ist, was Spekulation ist, was die Clips andeuten und worauf man bei der Keynote tatsächlich achten sollte. Nach der I/O folgt ein Update.

Timeline auf einen Blick

Datum	Ereignis	Quellenverlässlichkeit
2. Mai 2026	UI-String „Powered by Omni" im Video-Tab von Gemini entdeckt	Hoch – UI-Screenshot zirkulierte
2.–10. Mai 2026	Spekulationsphase. Kein konkreter Output, mehrere Medien bestätigen aber den String	Verifiziert
11. Mai 2026	Clips leaken aus einem Gemini-Pro-Account – v.a. Spaghetti-Szene und Tafel-Professor	Hoch – mehrere Medien berichten unabhängig dieselben Clips
11.–12. Mai	Erweiterter UI-String taucht auf: „Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more"	Verifiziert
19.–20. Mai 2026	Google I/O 2026 Keynote – wahrscheinlich offizielle Ankündigung	Geplant (noch nicht erfolgt)

Zwei Dinge stechen heraus. Erstens: Der Leak fand im Produkt statt, nicht in einer Marketing-Indiskretion – Google scheint Omni vor der Ankündigung an einen kleinen Teil der Gemini-Pro-Nutzer ausgerollt zu haben, und der Rollout war sichtbar genug, um screenshottet zu werden. Das ist ein deutlich glaubwürdigeres Signal als eine Presse-Indiskretion. Zweitens: Der zweite UI-String („remix your videos, edit directly in chat, try templates") zeigt, dass Google das als Workflow-Produkt positioniert, nicht als reines Modell – Formulierungen wie „edit directly in chat" und „remix" sind Consumer-Produkt-Sprache, keine Benchmark-Sprache.

Was die beiden Clips tatsächlich zeigen

Die zwei geleakten Clips sind die konkreteste Information, die es aktuell gibt. Beide waren kurz – unter 10 Sekunden – und wurden aus Text-Prompts in dem generiert, was Nutzer als die Gemini-Pro-Webschnittstelle beschrieben.

Clip 1: Die Spaghetti-Szene

Ein Gast in einem Strandrestaurant isst Spaghetti, Sonnenuntergangslicht, mediterrane Hintergrundgeräusche. Bemerkenswert ist nicht die visuelle Qualität – die ist konkurrenzfähig mit dem, was Veo 3.1 schon kann. Bemerkenswert ist, dass die Spaghetti sich wie Spaghetti verhalten. Sie drehen sich auf der Gabel, fallen mit Gewicht zurück, die Bewegung Gabel-zum-Mund respektiert die Kontinuität. Physikintensive Essensszenen waren historisch ein Schwachpunkt für Videomodelle – Besteck und Essen verformen sich unnatürlich, Fäden brechen, die Schwerkraft setzt mitten in der Szene aus. Der geleakte Clip handhabt das sauber, was darauf hindeutet, dass das Modell darunter einen merklich besseren Physik-Prior als das öffentliche Veo 3.1 hat.

Clip 2: Der Tafel-Professor

Ein Professor arbeitet trigonometrische Beweise an einer Tafel durch. Die Kamera hält auf der Tafel, während er schreibt. Interessant ist hier das Text- und Formel-Rendering. KI-Videomodelle sind berüchtigt schlecht bei kohärentem Text – Buchstaben driften zwischen Frames, Gleichungen werden mittendrin zu Kauderwelsch, alles, was wie Mathematik aussieht, zerfällt typischerweise. Der geleakte Tafel-Clip zeigt erkennbare mathematische Notation, die über die Frames hinweg konsistent gerendert ist, wobei die Hand des Professors die Striche korrekt verfolgt. Das ist keine kleine Verbesserung; das ist eine Kategorie, die seit zwei Jahren kaputt war.

Was beide Clips zusammen andeuten

Wenn die geleakten Clips repräsentativ sind – und wir sollten dieses „Wenn" ernst nehmen, weil Google natürlich Clips streut, die das beste Output zeigen –, dann zielt Omni auf zwei der härtesten bekannten Schwächen in KI-Video: komplexe Physik und Text-Rendering auf dem Bildschirm. Das sind dieselben beiden Themen, die sowohl der Sora-2-Abgang als auch der HappyHorse-1.0-Launch als nächste Front markiert haben. (Die kanonische Darstellung dazu siehe unsere Mid-2026-Bilanz.)

Die Wahl der Demo-Inhalte ist nicht zufällig. Eine Spaghetti-Szene und eine Mathe-Vorlesung sind keine Ästhetik-Demonstrationen – sie sind Fähigkeits-Demonstrationen, gezielt auf genau die Dinge, die die Konkurrenz nicht zuverlässig kann. Das verrät, wogegen Google Omni positioniert.

Drei konkurrierende Theorien darüber, was Omni wirklich ist

Hier wohnt die Pre-I/O-Spekulation. Es gibt drei plausible Interpretationen, was Omni darstellt, und sie haben sehr unterschiedliche Implikationen für den Rest des Marktes.

Theorie 1: Ein Consumer-Rebrand von Veo 3.1

Die einfachste Interpretation: Omni ist nur ein neuer öffentlicher Name für die bestehende Veo-Pipeline innerhalb der Consumer-Gemini-App. Der zugrundeliegende Generierungsstack ändert sich nicht. Google zieht die „Veo"-Marke von der Consumer-Oberfläche zurück, behält sie für die Vertex-AI-Enterprise-API und gibt dem Gemini-Chat-Erlebnis einen einheitlichen Produktnamen.

Belege dafür: Google hat eine Historie des Umbenennens. Bard → Gemini war das auffälligste Beispiel. Consumer-Branding um „Veo 3.1" war immer ungelenk – Versionsnummern verkaufen sich nicht an nicht-technische Nutzer. Die UI-Strings („remix your videos, edit directly in chat") betonen Workflow, nicht Modell-Neuheit.

Belege dagegen: Die geleakten Clips zeigen Fähigkeiten, die das öffentliche Veo 3.1 sichtbar übertreffen, besonders bei Physik und Text-Rendering. Ein reiner Rebrand würde keinen sichtbar anderen Output produzieren. Wenn Google nicht still ein Veo 3.2 unter der Omni-Marke ausliefert, erklärt diese Theorie die Clips nicht.

Theorie 2: Ein separates Gemini-trainiertes Videomodell

Die mittlere Interpretation: Omni ist ein neues Videomodell, trainiert innerhalb der Gemini-Linie – getrennt von der DeepMind-Veo-Pipeline – und steht in Googles Roadmap neben Veo statt es zu ersetzen. Consumer-Gemini nutzt Omni; Enterprise-Kunden auf Vertex AI nutzen weiterhin Veo. Beide entwickeln sich parallel weiter.

Belege dafür: Google hat historisch parallele Modelllinien gepflegt (Gemini für Consumer, separate Forschungslinien für Enterprise). Der Fähigkeitssprung in den geleakten Clips ist konsistent mit einem Modell, das auf einer anderen Datenmischung und Architektur als Veo 3.1 trainiert wurde.

Belege dagegen: Zwei Top-Tier-Videomodelllinien zu betreiben ist teuer. Der Sora-2-Abgang, den wir in unserem Postmortem behandelt haben, zeigte, dass selbst OpenAI ein einzelnes Consumer-Videomodell im Maßstab nicht aufrechterhalten konnte; zwei zu betreiben wäre eine seltsame strategische Wahl für Google.

Theorie 3: Ein einheitliches Omni-Modell (Bild + Video + Audio in einem Forward Pass)

Die ehrgeizigste Interpretation: Omni ist das erste Mitglied einer neuen Gemini-trainierten Modellfamilie, die Bildgenerierung, Videogenerierung und synchronisiertes Audio in einem einzigen Forward Pass behandelt. Das ist die Architektur, die HappyHorse 1.0 begründete, als es im April die Arena-#1 mit einem 15-Mrd-Parameter Unified-Audio-Video-Modell holte. Unter dieser Theorie ersetzt Omni sowohl die aktuelle Veo-Pipeline (Video) als auch den Nano-Banana-Pro-Stack (Bild) durch einen einzigen multimodalen Generator.

Belege dafür: Der Produktname selbst – „Omni" – impliziert stark multimodale Reichweite. Die UI-Formulierung („our new video model, remix your videos, edit directly in chat") suggeriert eine einzige Produktoberfläche über mehrere Modalitäten. Der Wettbewerbsdruck durch HappyHorse, eine einheitliche Architektur auszuliefern, ist akut; Google verliert seit April den Arena-Top-Spot. (Architekturdetails siehe unser HappyHorse-1.0-Review.)

Belege dagegen: Einheitliche Omni-Modelle sind technisch schwierig, und Google ist konservativer als ByteDance oder Alibaba, wenn es um neuartige Architekturen für Consumer geht. Zwei Produktionspipelines gleichzeitig zu ersetzen ist ein Hochrisiko-Move für eine öffentliche Keynote.

Wo das Geld liegt

Branchenbeobachter verteilen sich grob 30/30/40 auf die drei Theorien. Die wahrscheinlichste Lesart, basierend auf UI-Framing und Fähigkeitssprung, ist eine Hybridform aus Theorie 2 und 3: ein neues Gemini-trainiertes Modell, das mindestens Video und Audio einheitlich behandelt, während Veo auf Vertex AI für Enterprise-Kunden mit Stabilitätsbedarf am Leben bleibt. In sechs Tagen wissen wir es.

Warum das über Google hinaus zählt

Omni ist nicht deshalb interessant, weil Google ein neues Videomodell veröffentlicht. Neue Videomodelle erscheinen jetzt jeden Monat. Omni ist interessant wegen dem, was es bedeuten würde, wenn Theorie 3 stimmt.

Die KI-Video-Branche hat die ersten vier Monate von 2026 damit verbracht, die Unified-Omni-Modell-These zu beobachten. Sora 2 kollabierte in 84 Tagen mit einer Separate-Pipelines-Architektur. HappyHorse 1.0 holte die Arena-#1 in 48 Stunden mit einer 15-Mrd-Parameter Unified-Architektur. Seedance 2.0 liefert Audio und Video gemeinsam über einen Dual-Branch-Transformer. Der technische Schwerpunkt hat sich ein ganzes Quartal lang in Richtung einheitlicher Modelle verschoben, und das einzige große westliche Labor, das nicht reagiert hatte, war Google.

Wenn Omni ein echtes Unified-Modell ist – Theorie 3 –, dann zieht Google mit dem Architekturtrend gleich, den die chinesischen Marktführer etabliert haben. Das hat drei nachgelagerte Effekte:

Die Veo-Marke konsolidiert oder zieht sich zurück. Eine Separate-Pipeline-Veo neben einem Unified-Omni mehr als 12 Monate zu betreiben, ergibt keinen Sinn. Enterprise-Kunden auf Vertex AI würden einen Migrationspfad erwarten.
Die westliche/chinesische Architekturlücke schließt sich. Der Frame „Chinesische Modelle haben einen strukturellen Vorsprung, weil sie Unified-Architekturen pionierten" schwächt sich ab, sobald Google sein eigenes liefert.
Die Modell-Layer-Differenzierung komprimiert sich weiter. Wenn vier der Top-Sechs-Modelle alle Unified-Audio-Video-Architekturen nutzen, kommodifiziert sich der Modell-Layer weiter, und der Agent-Layer wird der einzige sinnvolle Differenzierungspunkt. Das ist die zentrale These unserer Mid-2026-Bilanz, und Omni würde sie verlängern.

Wenn Omni nur ein Rebrand ist (Theorie 1), trifft das meiste davon nicht zu. Aber die geleakten Clips machen Theorie 1 zur unwahrscheinlichsten der drei.

Worauf bei der I/O zu achten ist – eine Sechs-Punkte-Checkliste

Wenn die Keynote am 19. Mai startet, sagen folgende Signale, welche Theorie stimmte. Keines allein ist entscheidend, aber zusammen ergeben sie ein klares Bild.

Signal 1: Sagt Google auf der Keynote-Bühne noch „Veo"?

Wenn Veo aus dem Consumer-orientierten Gemini-Segment auffällig abwesend ist, ist das ein Beleg, dass Veo als Consumer-Marke ausgemustert wird. Wenn Veo weiterhin neben Omni erwähnt wird, koexistieren beide (Theorie 2). Wenn beide erwähnt werden, Veo aber nur für Enterprise positioniert ist, beginnt die Migration.

Signal 2: Generiert Omni Audio im selben Call wie Video?

Ein einziger API-Call, der synchronisiertes Video + Audio zurückgibt, ist die technische Signatur eines Unified-Omni-Modells (Theorie 3). Zwei separate API-Calls – erst Video, dann ein zweiter Call für Audiosynthese – ist das ältere Architekturmuster. Die Keynote-Demo wird das wahrscheinlich klar zeigen.

Signal 3: Behandelt Omni auch Bildgenerierung?

Wenn Omni nur als neues Videomodell positioniert wird, ist das ein engerer Scope. Wenn Omni Bildgenerierung absorbiert – Nano Banana Pro innerhalb von Geminis Chat-Oberfläche ersetzt –, ist das ein Beleg für die breitere Unified-Modality-These. Achten Sie darauf, ob Bildgenerierungs-Demos in der Keynote „Omni" zugeschrieben werden oder als Nano Banana / Imagen gebrandet bleiben.

Signal 4: Gibt es am ersten Tag eine API?

Veo 3.1 startete am ersten Tag seiner Keynote in Vertex AI. Wenn Omni am 19.–20. Mai mit öffentlichem API-Zugang und Pricing ausgeliefert wird, ist es sofort für Produktion positioniert. Wenn es Consumer-only ausgeliefert wird mit API-Zugang „später dieses Jahr", geht Google den Sora-2-Retail-First-Weg – und wir haben gesehen, dass der ökonomisch im Maßstab nicht funktioniert.

Signal 5: Wie sieht die Preisstruktur aus?

Der aktuelle öffentliche Top-Tier-API-Pricing-Benchmark liegt etwa bei $0.05/Sek (HappyHorse 1.0) bis $0.50/Sek (Veo 3.1). Wenn Omnis API-Pricing näher an HappyHorse landet, konkurriert Google über Kosten; landet es näher an Veo 3.1, konkurriert Google über Qualität. Die Wahl verrät, welchen Markt Google priorisiert.

Signal 6: Wie passt Project Astra rein?

Google demonstriert Project Astra – seinen Echtzeit-Multimodal-Assistenten – auf jeder I/O seit 2024. Wenn Astra am 19.–20. Mai plötzlich Produkt wird und Omni darunter nutzt, ist das die breitere „Omni"-These: nicht nur ein Videomodell, sondern eine Echtzeit-Multimodal-KI-Oberfläche über die gesamte Gemini-Erfahrung hinweg.

Was das für Ihren Workflow bedeutet

Drei praktische Punkte, während wir auf die Keynote warten.

Wenn Sie Kreativer sind und Gemini direkt nutzen

Ändern Sie noch nichts. Omni in der Consumer-Gemini-App – falls es nächste Woche ausgeliefert wird – wird die bestehende Video-Generierungs-Erfahrung einfach ersetzen oder upgraden. Die „remix your videos, edit directly in chat"-Formulierung legt denselben Chat-getriebenen Workflow nahe, den Sie bereits kennen, nur mit einem klügeren Modell darunter. Warten Sie auf die Ankündigung, probieren Sie die neuen Fähigkeiten, passen Sie Ihre Prompts an das an, was sich tatsächlich ändert.

Wenn Sie auf Vertex AI bauen

Beobachten Sie Signal 1 (Veo-Marke) und Signal 4 (API-Verfügbarkeit) genau. Wenn Veo als Consumer-Marke abgewickelt wird, aber auf Vertex AI für Enterprise bleibt, ist Ihre bestehende Integration sicher. Wenn Omni Veo auf Vertex AI komplett ersetzt, steht Ihnen eine API-Migration bevor. So oder so: Bauen Sie Ihre Integration durch eine Agent- oder Orchestrierungsschicht, sodass der Modell-Tausch eine Konfigurationsänderung ist, kein Code-Change.

Wenn Sie einen Multi-Modell-Agent-Stack betreiben

Das ist die Situation, die wir in unseren jüngsten Stücken befürwortet haben. (Siehe die sechs Verschiebungen und die Langform-Engpässe.) Ein Multi-Modell-Agent behandelt Omni als einen weiteren Generator zum Routen – neben Veo, Seedance, HappyHorse, Kling, Luma und Runway. Der Agent-Layer ist, wo die produktive Frage lebt: welche Einstellung in diesem 60-Sekunden-Video wird zu welchem Modell geroutet. Omnis Ankündigung fügt der Routing-Tabelle eine weitere Option hinzu; sie ändert nicht die Architektur, die Sie betreiben.

Genau deshalb haben wir Genras Stack modell-agnostisch gehalten: Der Modell-Layer rumpelt weiter, der Agent-Layer ist, was sich kapitalisiert.

Fazit – sechs Tage vor der I/O

Was wir wissen: Es gibt ein echtes Modell namens Omni im Video-Tab von Gemini, es produziert Output, das sichtbar besser ist als das öffentliche Veo 3.1 bei Physik und Text, und Google framt es als chatbasiertes Workflow-Produkt. Was wir nicht wissen: ob es ein Rebrand, ein paralleles neues Modell oder ein einheitliches Omni-Modality-System ist.

Die nützlichste Einzelprognose ist die dritte. Wenn Theorie 3 stimmt, schließt sich am 19. Mai die westlich-chinesische Architekturlücke, und die Branche kehrt zu einem multipolaren Rennen zurück, in dem alle großen Labs Unified-Audio-Video-Architekturen betreiben. Wenn Theorie 3 falsch ist, hinkt Google noch immer der architektonischen Front hinterher, die HappyHorse gesetzt hat – und das Wettbewerbsbild bleibt wie nach dem HappyHorse-Launch im April.

So oder so ist die praktische Lehre dieselbe: Der Modell-Layer bewegt sich weiter, der Agent-Layer ist, wo Sie bauen sollten. Omni ändert das nicht. Es verstärkt es entweder (indem es ein weiteres Commodity-Modell zur Routing-Tabelle hinzufügt) oder bewegt die Nadel nicht (wenn es ein Rebrand ist). Teams, die ihre Differenzierung bereits auf Agent-Infrastruktur verlagert haben, werden alles, was Google am 19. ankündigt, als Konfigurations-Update absorbieren. Teams, die noch auf ein einzelnes Hero-Modell setzen, verbringen den Rest von Q2 mit Nachrüstung.

Nach der Keynote aktualisieren wir das Stück mit dem, was tatsächlich angekündigt wurde.

FAQ

Was ist Gemini Omni?

Gemini Omni ist ein nicht angekündigtes KI-Videogenerierungs-Modell, das durch zwei Leaks in Googles Gemini-Oberfläche auftauchte – ein UI-String am 2. Mai 2026 und generierte Video-Clips, die am 11. Mai aus einem Gemini-Pro-Account leakten. Google hat Omni Stand 13. Mai nicht offiziell bestätigt. Das wahrscheinlichste Ankündigungsfenster ist die Google I/O 2026 am 19.–20. Mai.

Ersetzt Gemini Omni Veo?

Unbestätigt. Drei Theorien sind im Spiel: Omni ist ein Consumer-Rebrand von Veo 3.1, Omni ist ein separates neues Gemini-trainiertes Modell, das neben Veo koexistiert, oder Omni ist ein Unified-Omni-Modality-Modell, das sowohl Veo als auch Googles Bildgenerierungs-Stack ersetzt. Die geleakten Clips deuten auf Fähigkeiten jenseits des aktuellen öffentlichen Veo 3.1 hin, was die Reine-Rebrand-Theorie am unwahrscheinlichsten macht.

Was zeigten die geleakten Clips?

Zwei Clips bekamen die meiste Aufmerksamkeit: eine Spaghetti-Szene in einem Strandrestaurant (bemerkenswert für die Handhabung physikintensiver Essens-Bewegungen, die aktuelle Modelle typischerweise zerbrechen) und ein Professor, der trigonometrische Beweise an einer Tafel durcharbeitet (bemerkenswert für das Rendern kohärenter mathematischer Notation über Frames hinweg, woran KI-Videomodelle historisch gescheitert sind).

Wann wissen wir, was Omni wirklich ist?

Google I/O 2026 am 19.–20. Mai. Die Keynote wird wahrscheinlich das Omni-Branding bestätigen oder verneinen, klären, ob es Veo ersetzt, und enthüllen, ob es zusätzlich zu Video auch Audio- und Bildgenerierung handhabt. Achten Sie auf sechs konkrete Signale: ob Veo noch erwähnt wird, ob Audio im selben Call wie Video generiert wird, ob Bildgenerierung enthalten ist, ob am ersten Tag eine API liefert, was das Pricing ist und wie Project Astra hineinpasst.

Was soll ich als Kreativer vor der Ankündigung tun?

Ändern Sie noch nichts. Wenn Sie Consumer-Gemini nutzen, warten Sie auf den Launch und probieren Sie die neuen Fähigkeiten aus. Wenn Sie auf Vertex AI sind, achten Sie auf einen API-Migrationspfad. Wenn Sie einen Multi-Modell-Agent-Stack betreiben, behandeln Sie Omni als weiteren Generator zum Routen – das ändert nicht die Architektur, die Sie betreiben.

Wie vergleicht sich Omni mit HappyHorse 1.0?

HappyHorse 1.0 holte die Artificial Analysis Video Arena #1 in 48 Stunden, als es am 7. April 2026 mit einer 15-Mrd-Parameter Unified-Audio-Video-Architektur launchte. Wenn Omni ein Unified-Omni-Modell ist (Theorie 3), repräsentiert es Googles erste Antwort auf diese Architekturrichtung. Wenn Omni ein Separate-Pipeline-Modell (Theorie 2) oder ein Rebrand (Theorie 1) ist, hinkt Google weiterhin der Unified-Architektur-Front hinterher, die HappyHorse gesetzt hat.

Über den Autor
Chris Sherman berichtet über KI-Video-Technologie und kreative Produktions-Workflows. Folgen Sie @GenraAI für Live-Berichterstattung während der Google-I/O-2026-Keynote am 19.–20. Mai.