Die sechs Verschiebungen, die bereits passiert sind: Ein KI-Video-Rückblick zur Jahresmitte 2026

Keine Vorhersagen. Inventur. Sechs Dinge, die bereits zur Funktionsweise der Branche geworden sind.

Das Feld hat sich neu organisiert, während du auf die Modelle geschaut hast

Wenn du an Silvester eingeschlafen und diese Woche aufgewacht wärst, würdest du die Dezember-2025-Version von KI-Video nicht wiedererkennen. Das Sora-2-Logo ist von OpenAIs Produktseite verschwunden. Das meistzitierte Modell auf der Artificial Analysis Video Arena ist eines, das vor acht Wochen noch nicht existierte und anonym von einem Team gestartet wurde, von dem du noch nichts gehört hast. Die dominierende Frage in Creator-Foren ist nicht mehr „welches Modell ist das beste". Es ist „welchen Agent soll ich laufen lassen". Charakterkonsistenz, der Engpass jedes Long-Form-KI-Projekts seit zwei Jahren, ist kein Feature mehr, das jemand bewirbt. Eine 10-minütige KI-Doku, zu Jahresbeginn ein Mondlandungs-Demo, ist jetzt etwas, das ein einzelner Creator in einer Arbeitswoche liefert.

Fünf Monate. Sechs Verschiebungen. Keine davon sind Vorhersagen. Sie sind Inventur: Dinge, die im Mai 2026 bereits zur tatsächlichen Funktionsweise der Branche geworden sind. Unten steht, was jede war, was sich änderte, die spezifischen Ereignisse und Zahlen dahinter, und was es für das bedeutet, was du als Nächstes baust.

Verschiebung 1 — Der Sora-2-Kollaps reorganisierte die Spitze des Feldes

Das größte Einzelereignis des Jahres bisher hat Daten: 31. Dezember 2025 (Sora 2 startete), 10. Januar 2026 (Free Tier nach zehn Tagen ausgesetzt), 24. März 2026 (Abschaltung angekündigt), 26. April 2026 (Consumer-App und Web geschlossen), 24. September 2026 (API-Beendigung). Vierundachtzig Tage als Consumer-Produkt. Der gehypteste KI-Video-Launch der Geschichte schiffte, erreichte den Höhepunkt und faltete sich innerhalb eines Geschäftsquartals zusammen.

Die Schlagzeilen-Zahlen lohnen sich an einer Stelle gesehen, weil sie erklären, warum der Kollaps so schnell passierte und warum er so viel Kapital und Glaubwürdigkeit mit sich riss:

Metrik	Sora 2	Branchen-Benchmark
Tägliche Inferenzkosten am Peak	~$15 Millionen	Eine Größenordnung niedriger bei vergleichbarem Volumen
Sora-zurechenbarer Lebenszeit-Umsatz	~$2,1 Millionen	—
Verhältnis Kosten zu Umsatz	~600:1	<5:1 für nachhaltige KI-Tools
1080p-Zugang	$200/Monat (nur Pro-Tier)	$5–30/Monat (Kling, Runway, Seedance)
Standard-Tier-Auflösung	480p	720p–1080p
Free-Tier-Dauer	10 Tage, dann entfernt	Laufend (gestaffelt)

Der Disney-Schaden verschärfte den finanziellen Schaden. OpenAI und Disney hatten einen rund 1 Milliarde Dollar IP-Deal unterzeichnet, der über 200 Charaktere aus Disney Animation, Marvel, Pixar und Star Wars abdeckte — der größte Burggraben, den ein KI-Video-Produkt jemals aufgereiht hatte. Disney wurde Berichten zufolge weniger als eine Stunde vor der öffentlichen Ankündigung über die Abschaltung informiert. Der Deal kollabierte. Drei OpenAI-Führungskräfte, die mit der Sora-Consumer-Anstrengung verbunden waren, schieden in den Wochen danach aus. (Vollständiges Post-Mortem in unserer Aufschlüsselung, warum OpenAI Sora getötet hat.)

Der Folgeeffekt war nicht das, was die meisten Beobachter vorhergesagt hatten. Sora-2-Nutzer migrierten nicht zu einem einzelnen Ersatz. Sie spalteten sich, vorhersagbar, nach Job: physikintensive Arbeit zu Veo 3.1, Cameo-artige Personeneinsetzung zu Kling 3, lange storyboarded Sequenzen zu Seedance 2, photorealistische Menschenarbeit zu Luma Ray3 (der Migrationsbericht zeichnet die Aufschlüsselung detailliert nach in wohin die Sora-Nutzer gegangen sind). Die „ein Modell beherrscht alle"-Einrahmung kollabierte mit Sora 2; sie ist nicht wieder aufgebaut worden.

Was sich geändert hat. Die Rangliste ist jetzt jobspezifisch. Es gibt keine Q1-artige „Top-Modell"-Antwort für Mai 2026. Die richtige Frage ist, welches Modell zu der Aufnahme passt, die du machst, und diese Frage wird zunehmend von einem Agent beantwortet statt von einem Creator. Die Ära, in der ein einzelnes Heldenmodell den Stack eines Creators verankern konnte, ist vorbei und kehrt unwahrscheinlich zurück — die Ökonomie, die Sora 2 tötete (600 Dollar Compute pro 1 Dollar Umsatz), ist nicht OpenAI-spezifisch; sie gilt für jeden, der versucht, der dominante Single-Model-Anbieter zu sein.

Verschiebung 2 — Eine neue Spitze der Rangliste, gebaut in China

Die andere Seite des Sora-2-Exits ist, dass chinesisch gebaute Modelle die Lücke nicht nur füllten — sie nahmen die Spitze des Boards. Die klarste Illustration ist HappyHorse 1.0, der bisher folgenreichste Modell-Launch von 2026.

Am 7. April 2026 erschien ein unbenanntes Modell auf der Artificial Analysis Video Arena Rangliste. Keine Pressemitteilung, kein Team-Logo, keine öffentlichen Gewichte. Innerhalb von 48 Stunden saß es auf Platz 1 in Text-to-Video mit einem Elo von 1389 — 115 Punkte vor Seedance 2.0, dem vorherigen Spitzenreiter — und auf Platz 1 in Image-to-Video mit einem Elo von 1416. Am 9.–10. April enthüllte der X-Account @AthAI_Official, dass das Modell von Alibabas ATH AI Innovation Unit gebaut wurde, geleitet von Zhang Di — ehemaliger VP bei Kuaishou und der Architekt hinter Kling AI. Der Architekt eines chinesischen Spitzenreiters war leise abgewandert und hatte bei einem anderen chinesischen Riesen einen Konkurrenten neu gebaut. (Vollständige technische Analyse in unserer HappyHorse-1.0-Aufschlüsselung.)

HappyHorse ist die Schlagzeile, aber nicht der einzige Datenpunkt. Die Spur-für-Spur-Spitze des Feldes Mitte Mai 2026:

Spur	Spitzenreiter (Mai 2026)	Wo es gebaut wird	Warum
Stilisiert / animiert / Anime-nah	Kling 3.0	Kuaishou (CN)	Natives 4K/60fps, stärkstes Free Tier unter Top-Modellen
Referenzgetriebenes Marken- und Produktvideo	Seedance 2.0	ByteDance (CN)	Multi-modales Referenzsystem, über CapCut an ~500M+ Nutzer verteilt
Chinesischsprachiges Kurzdrama und CN-Commerce	HappyHorse 1.0	Alibaba (CN)	Natives Mandarin-Lip-Sync, niedrigster API-Preis im Top-Tier
Dialoglastig, broadcast-fähig	Veo 3.1	Google (US)	48 kHz nativer Audio, professionelle Color Science, Extend
Photorealistischer Mensch / Talking Head	Luma Ray3	Luma (US)	Hauttextur, Augenverhalten, Mikromimik
Lokal / On-Premise / NDA-Arbeit	LTX-2	Lightricks (IL)	Erstes Top-Tier-Modell, das zuverlässig auf einer einzigen High-End-Consumer-GPU läuft

Drei dieser sechs Spitzenreiter sind chinesisch gebaut. Vor achtzehn Monaten existierte diese Konfiguration nicht. Das Muster ist nicht nationalistisch — es ist, dass der Talent- und Kapitalfluss, der diese Modelle produziert, stabil ist: Architektenmobilität im Stil von Zhang Di zwischen Kuaishou, ByteDance und Alibaba ist jetzt üblich, und allein ByteDances CapCut-Distribution ist ein Burggraben, den kein westliches KI-Video-Startup matchen kann.

Was sich geändert hat. Die Modellebene ist nicht länger westlich per Default. Indie-Creator, Agenturen und Studios, die 2026 Produktions-Stacks bauen, müssen chinesische Modelle gleichberechtigt mit US-Modellen evaluieren — nicht als Diversitäts-Check, sondern als Notwendigkeit für Fähigkeit und Preisgestaltung. Teams, die das im Q1 gelernt haben, haben bereits einen bedeutenden Vorsprung bei Kosten und beim Zugang zu Fähigkeiten (Mandarin-Lip-Sync, Anime-nahe Stilisierung, Generierungen unter $0,50), die westliche Modelle einfach nicht matchen.

Verschiebung 3 — Die Modellebene wurde zur Commodity

Die Begleiterin von Verschiebung 2 ist, dass die Lücke zwischen „beste" und „gut genug" zusammengebrochen ist. Bis Mai 2026 generieren die sechs Top-KI-Videomodelle alle weitgehend vergleichbaren Per-Clip-Output für die meisten Anwendungsfälle. Die Elo-Lücke zwischen #1 und #6 auf der Arena-Rangliste sitzt innerhalb eines Bandes, das vor zwei Jahren Frontier-Modelle von Mitläufern trennte. Es gibt noch echte Spezialisierungen — die obige Spurentabelle listet sie auf — aber die Lücken haben sich auf Spuren verengt, nicht auf Absoluta.

Die Preisdaten erzählen die gleiche Geschichte aus einem anderen Winkel. Die Kosten für die Generierung eines 1080p, 5-Sekunden-Clips über führende Modelle im Mai 2026:

Modell	Kosten pro Generierung (5s, 1080p)	Einstiegsplan
Kling 3.0	~$0,20–0,30	$5/Monat
HappyHorse 1.0	~$0,25	Nur API, niedrigster Top-Tier-Preis
Seedance 2.0	~$0,40–0,60	In CapCut-Bezahlplänen enthalten
Veo 3.1	~$0,60–0,80	An Vertex AI / Google AI Studio Abrechnung gebunden
Luma Ray3	~$0,80–1,20	$10/Monat Einstieg, Premium für Mensch-Realismus
Sora 2 (eingestellt)	~$4–8	$200/Monat Pro für 1080p

Die Sora-2-Zeile ist absichtlich drin gelassen. Die 10–20-fache Kostenlücke zwischen Sora 2 und dem Rest des Feldes war kein Merkmal von OpenAIs Qualitätsvorsprung — sie war ein Merkmal von Architekturentscheidungen, die kommerziell nicht überlebensfähig waren. Mit Sora 2 weg ist die überlebende Spanne eng, und die Preise konvergieren. Ein Creator-Team, das ein festes monatliches Budget fährt, kann jetzt ungefähr das gleiche Volumen vergleichbar-qualitativen Outputs produzieren, unabhängig davon, welches Top-Modell es wählt.

Das war das Jahr, in dem Fähigkeitskonvergenz aufhörte, eine Vorhersage zu sein, und anfing, etwas zu sein, das man auf der Arena-Rangliste und auf den Preisseiten ablesen kann. Ein Clip von Veo 3.1 und ein Clip von Kling 3 vom selben Prompt sind jetzt nach stilistischer Vorliebe unterscheidbar, nicht nach Qualität.

Was sich geändert hat. Wert wanderte nach oben. Wenn alle Zugang zu vergleichbaren Generatoren zu konvergierenden Preisen haben, wird der Differenzierer, wie man sie orchestriert — welche Aufnahme zu welchem Modell geroutet wird, wie Identität zwischen ihnen gehalten wird, wie der Audiobogen geplant wird, wie die Nähte beim Zusammenbau verschwinden. Diese Orchestrierungsschicht ist die nächste Verschiebung, und es ist die größte.

Verschiebung 4 — Prompt Engineering starb und die Agent-Schicht übernahm

„Prompt Engineering" stand 2024 in jeder Stellenausschreibung und war 2025 eine herausragende Fähigkeit auf den meisten KI-Bewerbungsprofilen. Bis Mai 2026 liest es sich anachronistisch — wie „HTML-Entwickler" auf einem Lebenslauf von 2020. Die Fähigkeit, die es beschrieb, war real, aber der Job zog um.

Der Ersatz ist der Agent. 2026 beschreibt ein Creator die Absicht in einfacher Sprache an einen Video-Agent. Der Agent zerlegt das Briefing in Beats, routet jeden Beat zum passendsten zugrundeliegenden Modell aus der obigen Spurentabelle, generiert gesperrte Charakter-Referenzen und verwendet sie über jede Aufnahme hinweg wieder, plant Voiceover und Musik als einzige durchgehende Bögen (nicht abschnittsweise), montiert das Ergebnis und exportiert es für die Zielplattform. Der Creator bleibt auf der Ebene der kreativen Direktion; der Agent erledigt die Ausführung. Der „schreib einen perfekten Prompt"-Workflow, der 2023–2025 definiert hat, wurde von jedem Team, das es ernst meint mit Output-Volumen, in den Ruhestand geschickt.

Der strukturelle Grund, warum das passierte, ist einfach: mit sechs Commodity-Modellen in verschiedenen Spuren (Verschiebung 3) können menschlich geschriebene Prompts nicht mit einem Agent konkurrieren, der weiß, welches Modell Dialog vs. Stilisierung vs. referenzlastige Aufnahmen behandelt, und entsprechend routet. Die kognitive Last, dieses Routing manuell über 60+ Generierungen für ein 10-Minuten-Stück zu fahren, ist das, was den Multi-Tool-Workflow getötet hat. (Für die ingenieurmäßigen Spezifika geht unser Long-Form-KI-Video-Feldhandbuch genau durch, welche Probleme die Agent-Schicht absorbiert, die Prompts nicht können.)

Das Job-Markt-Signal ist konkret. Stellenausschreibungen für „Prompt Engineer"-Rollen erreichten Mitte 2024 ihren Höhepunkt und sind seit Q4 2025 rückläufig. Stellen für „AI Workflow Operator", „AI Production Lead" und „AI Agent Operator" — Rollen, die explizit Agent-Level-Operation beschreiben — sind im selben Zeitraum schnell gewachsen. Der Skill-Schwerpunkt verlagert sich von cleverer Formulierung zu Systemorchestrierung.

Was sich geändert hat. Produktionsgeschwindigkeit und -qualität sprangen beide gleichzeitig, und sie sprangen auf derselben Achse: Orchestrierung. Die Creator, die bis Mitte 2026 das meistgesehene KI-Video produzieren, sind nicht unbedingt die besten Prompt-Schreiber — sie sind diejenigen, die den besten Agent verwenden. Teams, die Mitte 2026 nach Prompt-Skills einstellen, stellen für einen Job ein, den es im Volumen, das ihre Vorgänger gedacht hatten, nicht mehr gibt.

Verschiebung 5 — Charakterkonsistenz hörte auf, ein Engpass zu sein

Den größten Teil von 2024 und 2025 war die einzige Beschwerde, die Long-Form-KI-Projekte zerbrach: „Ich kann das Gesicht meines Charakters über Aufnahmen nicht konsistent halten." Das Phänomen hatte einen Namen in Creator-Kreisen — „Drift" — und ein Volkgesetz: bis Minute drei ist dein Protagonist eine andere Person. Dokumentationen scheiterten daran. Vertikale Drama-Serien scheiterten daran. Die gesamte Long-Form-Kategorie war dadurch verstopft.

Bis Mai 2026 hat Drift aufgehört, eine Beschwerde zu sein. Identitätspersistenz — über Episoden, über Drehtage, über Modellgrenzen hinweg — ist jetzt Pflichtprogramm für jede agentengetriebene Pipeline. Eine einzige gesperrte Referenz wird über 80 Episoden eines vertikalen Dramas, 60 Generierungen einer Doku oder mehrere Monate einer Markenkampagne ohne sichtbare Degradation wiederverwendet.

Der technische Mechanismus, der das löste, ist nicht in einem einzelnen Modell. Die Modelllabore profitierten (sie konnten aufhören zu versuchen, Persistenz innerhalb einer einzelnen 8-Sekunden-Generierung zu halten), aber es war die Agent-Schicht oberhalb der Modelle, die die Lücke schloss. Der Agent hält ein Identitäts-Token, trägt es zwischen Generierungen, wechselt zwischen zugrundeliegenden Modellen, ohne das Token zu verlieren, und überprüft das Ergebnis bei jedem Output erneut auf Drift. Das funktioniert, ob der zugrundeliegende Generator Veo, Seedance, Kling oder HappyHorse ist.

Die Implikation für das, was jetzt möglich ist:

Format	Vor 2026	Mitte 2026
80-Episoden-Vertikaldrama	$150K–$300K Live-Action; KI-Versuche sichtbar gebrochen ab Folge 10	Solo-Team, ~6 Wochen, niedrige fünfstellige Beträge, Identität hält über alle 80
10-Minuten-Doku	Nur möglich mit Archiv- + Interview-Anker	Einzelner Creator, 3–5 Arbeitstage, Identität gehalten über 60+ Generierungen
Mehrwöchige Markenkampagne	Erforderte abgestimmte Live-Action-Drehs, um Charakter zu erhalten	Agent hält den markengesperrten KI-Charakter über Wochen der Generierung

Was sich geändert hat. Long-Form wurde tragfähig. Ohne Charakterpersistenz war KI-Video strukturell ein Short-Form-Medium — 60-Sekunden-Clips und isolierte Szenen. Damit öffnete sich die gesamte Long-Form-Kategorie für Indie-Teams. Die meiste Produktionskostenverschiebung, die in Verschiebung 6 folgt, ist downstream von dieser einzelnen technischen Freischaltung.

Verschiebung 6 — Produktionskosten kollabierten um eine Größenordnung

Die Vertikaldrama-Zahlen sind öffentlich und dramatisch, also werden sie am häufigsten zitiert: Live-Action-Produktionsbudgets von $150K–$300K pro Serie wurden durch KI-Pipelines ersetzt, die für eine äquivalente 70–100-Episoden-Laufzeit in den niedrigen fünfstelligen Beträgen landen. Dieselbe Verschiebung, weniger laut, gilt für Erklärvideo, Markenwerbung, Talking-Head-Inhalt und animierten Kurzfilm. Die Kostenposition, die früher jedes Videobudget dominierte, läuft jetzt im einstelligen Prozentsatz der gesamten Projektausgaben.

Um Zahlen auf die Produktionskostenverschiebung über Formate zu bringen:

Format	2024 Live-Action-Budget	2026 KI-Pipeline-Budget	Reduktion
80-Folgen-Vertikaldrama-Serie	$150K–$300K	$10K–$25K	~10–15×
10-Min-Erklärvideo	$8K–$30K	$300–$1.500	~20×
30-Sekunden-Markenwerbung	$30K–$200K+	$1K–$5K	~20–40×
5-Minuten-Animationskurzfilm	$20K–$80K (Animationsstudio)	$500–$2.500	~30×

Eine kritische Einschränkung muss auf dem Tisch liegen, weil sie die Linie ist, die bestimmt, ob der Kostenkollaps tatsächlich zu einer Creator-Economy-Geschichte zusammenkommt: bezahlte Akquisitionskosten sanken nicht. Meta- und TikTok-Werbe-CPMs sind im Jahresvergleich grob unverändert. Die bindende Beschränkung darauf, ob ein KI-produziertes Video sein Publikum findet, ist immer noch das Werbebudget dahinter, das für eine Vertikaldrama-Serie weiterhin im Bereich von $200K–$1M liegt, um einen Hit zu finden. Die Produktionszeile sank um das 10–40-fache; die Distributionszeile nicht. (Wir haben genau erläutert, wie das für Indie-Teams aussieht, die das ReelShort/DramaBox-Modell fahren wollen, in dem ReelShort-Playbook.)

Die Hit-Rate-Mathematik änderte sich entsprechend. 2024 brauchte ein Indie-Team grob 2 Mio. Dollar Arbeitskapital, um eine einzelne Live-Action-Vertikaldrama-Serie mit realistischen Überlebenschancen zu fahren (ein $150K-Produktionsversuch plus bezahlte Akquise; ein einziger fehlgeschlagener Versuch war strukturell tödlich). 2026 kann dasselbe Indie-Team auf vergleichbarem Budget 8–12 Versuche pro Jahr starten, weil jeder Versuch ~10–15× weniger kostet. Hit-getriebene Kategorien belohnen die Anzahl der Versuche. Die Mathematik darüber, wer das Spiel spielen kann, hat sich geändert — leise, aber vollständig.

Was sich geändert hat. Die Ökonomie, wer eine Produktion versuchen kann, reorganisierte sich. Indie-Teams, die sich keinen einzigen Live-Action-Versuch an einer Serie leisten konnten, können jetzt ein Portfolio von Versuchen fahren. Studios, die vom alten Fixkosten-Burggraben profitierten, haben ihn verloren. Kapitalkonzentration an der Spitze der Branche (das Modell, das für 2010er Streaming funktionierte) wird durch Kapitalfragmentierung am Rand ersetzt.

Was diese sechs Verschiebungen zusammen ergeben

Zusammen gelesen sind dies nicht sechs unabhängige Geschichten. Sie sind eine Geschichte aus sechs Winkeln erzählt: der Schwerpunkt im KI-Video hat sich vom Modell auf die Orchestrierungsschicht darüber bewegt. Die Reihenfolge der Operationen ist kausal:

Sora 2 kollabierte (Verschiebung 1) — entfernte die einzige klarste „ein Modell beherrscht alle"-These aus dem Feld.
Chinesische Modelle nahmen die Top-Spuren (Verschiebung 2) — ersetzten das Single-Leader-Modell durch ein multi-polares.
Die Modellebene wurde zur Commodity (Verschiebung 3) — drückte die Lücke zwischen „beste" und „gut genug" in ein Band, das den Creator-Output nicht differenziert.
Prompt Engineering starb, die Agent-Schicht stieg auf (Verschiebung 4) — weil mit einer multi-polaren Modellebene kein Mensch zwischen Modellen schneller routen kann als ein Agent.
Charakterkonsistenz hörte auf, ein Engpass zu sein (Verschiebung 5) — weil die Agent-Schicht, die Identitäts-Token zwischen Modellen hält, löste, was kein einzelnes Modell konnte.
Produktionskosten kollabierten um eine Größenordnung (Verschiebung 6) — weil günstige Commodity-Modelle plus ein funktionierender Agent eine Pro-Minute-Kostenstruktur ergeben, mit der kein Live-Action-Workflow mithalten kann.

Wenn du 2026 ein Kreativteam baust, ist die praktische Erkenntnis, dass „wir haben Zugang zu Veo und Kling und Seedance" keine bedeutungsvolle Fähigkeitsbehauptung mehr ist. Jedes Team hat Zugang. Was ein Team, das 10 brauchbare Videos pro Monat liefert, von einem trennt, das 1 liefert, ist die Agent-Infrastruktur zwischen den Briefings und den Modellen.

Was das für den Rest von 2026 bedeutet

Drei Neuausrichtungen folgen aus diesen sechs Verschiebungen. Jede ersetzt etwas, das 2025 funktionierte und irgendwann in der ersten Hälfte 2026 aufhörte zu funktionieren.

1. Höre auf, Modelle zu ranken — fang an, sie zu routen

Wenn dein Team noch interne Evaluationen fährt, um „das beste Modell" für deinen Stack auszuwählen, verbrauchst du Energie, die 2025 belohnt hätte und die 2026 aufgehört hat zu belohnen. Die Arena-Rangliste ist informativ, aber die tatsächliche Frage ist, welche Kombination von Modellen — geroutet von einem Agent — zu deinen Produktionsbedürfnissen über Dialog, Referenz, Stilisierung und Sprache passt. Ein Multi-Modell-Agent-Stack schlägt jetzt einen Single-Modell-Stack gleichzeitig bei Kosten, Geschwindigkeit und Qualität. Es gibt kein verbleibendes Argument für den „wir standardisieren auf Veo"- oder „wir standardisieren auf Kling"-Ansatz, der vor zwölf Monaten funktionierte.

2. Stelle für kreative Direktion ein, nicht für Prompt-Skill

Der Engpass beim Output ist nicht mehr „kann jemand einen guten Prompt schreiben". Er ist „hat jemand eine klare Vision, was zu machen ist". Prompt Engineering als Einstellungssignal ist ein Frühindikator, dass ein Team das falsche Problem löst. Befördere nach kreativer Urteilskraft, Geschmack und redaktioneller Disziplin. Trainiere auf Agent-Operation, was schneller zu lernen und spezifischer für die Plattform ist, auf die du dich festlegst.

3. Plane Produktion auf Portfolio-Skala

Der Kostenkollaps bedeutet, du kannst dir leisten, viele Dinge zu versuchen und die meisten zu töten. Die Teams, die den Rest von 2026 gewinnen, sind diejenigen, die 8–12 Versuche pro Jahr liefern und aus den Daten lernen, nicht diejenigen, die das Quartalsbudget auf ein einziges Tentpole-Projekt setzen. Hit-getriebene Kategorien — Vertikaldrama, Social Commerce, Branded Content — belohnen Versuchszahl. Plane entsprechend: trenne „Produktionskosten pro Versuch" von „bezahlten Akquisitionsausgaben pro Gewinner", und höre auf, sie auf einer einzigen Budgetzeile zu vermischen.

Fazit

Die ersten fünf Monate von 2026 lieferten keine große Überraschung. Sie lieferten sechs strukturelle Verschiebungen, die zusammengenommen die Branche von ihrer 2025er-Grundlage bewegten. Die Modellebene ist nicht länger das Produkt. Die Agent-Ebene ist es. Sora 2s Kollaps und HappyHorse 1.0s anonymer Aufstieg auf Platz 1 in 48 Stunden sind keine unabhängigen Geschichten — sie sind dieselbe Geschichte, einmal von der Misserfolgsseite und einmal von der Erfolgsseite erzählt. Das Modell, das gewinnt, ist nicht das Modell, das am besten ist. Es ist das Modell, das innerhalb eines Agents am besten ist, der weiß, welches Modell auszuwählen ist.

Wenn dein KI-Video-Stack die Modellauswahl noch als Kernentscheidung behandelt, fährst du ein 2025er-Playbook in einem 2026er-Markt. Das ist behebbar. Die meisten Teams, die die zweite Hälfte des Jahres besitzen werden, machen den Fix in diesem Quartal.

FAQ

Was war das größte Einzelereignis im KI-Video in der ersten Hälfte 2026?

Die Sora-2-Abschaltung, angekündigt am 24. März und wirksam am 26. April. Das Produkt hielt 84 Tage als Consumer-Angebot und brannte sich durch ein etwa 600:1-Kosten-Umsatz-Verhältnis (~$15M/Tag Inferenz gegen ~$2,1M Lebenszeit-Umsatz), wobei der geplante 1-Mrd.-Dollar-Disney-IP-Deal mit nach unten ging. Der Folgeeffekt — Fähigkeitskonvergenz unter den überlebenden Modellen und eine Wertverschiebung zur Agent-Schicht — ist die strukturelle Veränderung.

Sind chinesische KI-Videomodelle 2026 wirklich an der Spitze?

Ja, und nicht als Verallgemeinerung. Konkret: Kling 3.0 (Kuaishou) führt bei stilisiert und animiert; Seedance 2.0 (ByteDance) führt bei referenzgetriebenen Markenvideos und wird via CapCut an ~500M+ Nutzer verteilt; HappyHorse 1.0 (Alibabas ATH AI Innovation Unit, geleitet von Zhang Di) führt bei chinesischsprachigem Kurzdrama und stieg innerhalb von 48 Stunden nach anonymem Launch am 7. April auf die Spitze der Arena-Rangliste. Drei der Top-Sechs-Produktionsmodelle im globalen Einsatz werden jetzt in China gebaut.

Ist Prompt Engineering Mitte 2026 noch eine nützliche Fähigkeit?

Für die Produktion fertiger Videos nein — Agents haben diese Arbeit weitgehend absorbiert, und „Prompt Engineer"-Stellenausschreibungen sind seit Q4 2025 rückläufig. Für Forschung, Evaluation und Edge-Case-Experimente zählt Prompt-Skill noch. Aber er ist kein Engpass mehr beim Produktionsoutput.

Wie viel günstiger ist KI-Video als Live-Action 2026?

Grob 10–40× je nach Format. Ein 80-Folgen-Vertikaldrama sank von $150K–$300K auf $10K–$25K. Ein 30-Sekunden-Markenwerbung sank von $30K–$200K auf $1K–$5K. Bezahlte Akquisitionskosten sanken nicht.

Worauf sollte sich ein KI-Video-Team gerade konzentrieren?

Bauen oder Übernehmen einer einheitlichen Agent-Schicht, die Routing zwischen Modellen, Charakteridentitätspersistenz, Audiobogenplanung und Assembly handhabt. Die Modellebene ist Commodity; die Differenzierung lebt eine Ebene höher.

Wird die Modellebene wieder zum Differenzierer werden?

Auf der aktuellen Bahn unwahrscheinlich. Die Compute-Ökonomie, die Sora 2 tötete, gilt für jeden, der versucht, der dominante Single-Model-Anbieter zu sein. Spezialisierung innerhalb von Spuren wird weitergehen, aber die Ära, in der ein Modell einen ganzen Stack verankern konnte, ist vorbei.

Über den Autor
Chris Sherman berichtet über KI-Videotechnologie und kreative Produktions-Workflows. Folge @GenraAI für mehr Guides zur KI-Filmproduktion.