Robin Li erklärt die Modell-Ära für beendet – KI-Video beweist es seit Monaten

Baidus CEO eröffnete heute die Create 2026 in Peking und verabschiedete „Welches Modell ist das beste?" als zentrale Frage. Für KI-Video macht das einen seit vier Monaten gewachsenen Konsens offiziell.

Der Satz, der die Branche umrahmt hat

Robin Li, Mitbegründer und CEO von Baidu, stand am 14. Mai 2026 auf der Bühne der Baidu Create 2026 in Peking und lieferte einen Satz, der den Rest des Jahres zitiert werden wird: Die KI-Branche, sagte er, sei am „Modellwettbewerb" vorbei und in „die Agent-Ära" eingetreten. Er koppelte das an einen konkreten Vorschlag – die neue Branchenkennzahl solle Daily Active Agents (DAA) heißen, das Agent-Ära-Pendant zum DAU des mobilen Internets, mit einer globalen DAA-Prognose von schließlich über 10 Milliarden.

Wer den KI-Video-Markt in den letzten vier Monaten beobachtet hat, weiß: Nichts davon ist eine Vorhersage. Es ist eine Beschreibung.

Sora 2 brach in 84 Tagen unter dem Gewicht einer reinen Modellstrategie zusammen. HappyHorse 1.0 nahm die Arena-#1 in 48 Stunden und komprimierte den sinnvollen technischen Abstand zwischen Frontier-Videomodellen sofort auf praktisch null. Seedance 2.0, Veo 3.1 und jetzt das geleakte Gemini Omni konvergieren auf denselben architektonischen Endpunkt. Die Frage „Welches Modell ist das beste?" hörte irgendwann zwischen Februar und April auf interessant zu sein. Heute wurde Robin Li der erste CEO einer großen Plattform, der das öffentlich aussprach.

Dieser Beitrag handelt davon, was das konkret für KI-Video bedeutet – was Li sagte, was Baidu heute tatsächlich auslieferte und warum eine Keynote über die Anwendungsschicht in Peking sich als die genaueste Beschreibung der Wettbewerbslandschaft für die zweite Hälfte 2026 herausstellt.

Was Li tatsächlich sagte

Drei Punkte aus der Keynote, alle in seinem eigenen Framing.

1. Die „KI-Evolutionstheorie" – ein Wandel auf drei Schichten

Li legte eine „KI-Evolutionstheorie" dar: gleichzeitiger Wandel auf drei Schichten. Agents entwickeln sich von passiven Antwortgebern zu autonomen Ausführenden, die kontinuierlich aus ihrer Umgebung lernen. Individuen entwickeln sich von gewöhnlichen Nutzern zu „Super-Individuen", die mit KI koexistieren, um ihren eigenen Output zu vervielfachen. Unternehmen entwickeln sich von Mensch-zu-Mensch-Kollaboration zu gemischten Mensch-Agent-Formationen, die als geeinte Super-Organisationen operieren.

Reißt man die Rhetorik weg, ist der Kern klar: Die Wertmigration entfernt sich von roher Modellfähigkeit und bewegt sich auf die Schicht zu, die Fähigkeit in Ergebnisse orchestriert. Das ist die Agent-Schicht. Alles oberhalb des Modells – was generiert wird, wann, von welchem Agent, für welchen Nutzer, im Dienst welches Ziels – ist, wo der Wert des nächsten Jahrzehnts lebt.

2. Daily Active Agents (DAA) – eine neue Kennzahl

Li schlug DAA als Agent-Ära-Nachfolger des DAU vor. Das Argument: Tokens messen Kosten, nicht Wert – sie sind eine Input-, keine Output-Metrik. Aktive Agents messen umgekehrt, wie oft autonome Software tatsächlich nützliche Arbeit für jemanden verrichtet. Er prognostizierte, dass globale DAA schließlich 10 Milliarden überschreiten könnten.

Ob die Zahl die richtige ist oder nicht – das Framing zählt. DAU belohnte Engagement (Zeit in der App). DAA belohnt produktive Autonomie (Arbeit, die ohne Nutzereingriff abgeschlossen wird). Beide haben sehr unterschiedliche Design-Implikationen für Videoerstellungs-Tools.

3. „Wegwerf-Software" – Anwendungen als Wegwerf-Artefakte

Der dritte Strang: Während Code-Generierungskosten kollabieren, fallen Software-Entwicklungsschwellen, und einmalige oder „wegwerfbare" Anwendungen werden tragfähig. Nutzer erzeugen ein maßgeschneidertes Stück Software für eine einzige Aufgabe und verwerfen es. Li nannte Baidus Coding-Agent Miaoda – der angeblich rund 90 % seines eigenen Codes generiert – als funktionierendes Beispiel.

Für Video ist die Analogie offensichtlich. Der Agent, der einen 60-sekündigen Werbespot generiert, ist kein Feature in einem Tool; er ist ein temporäres, aufgabenspezifisches Konstrukt, das so lange existiert wie das Projekt. Pipeline zusammengebaut, Modelle geroutet, Output gerendert, Agent aufgelöst.

Was Baidu heute tatsächlich auslieferte

Vier Produktankündigungen, alle als Beweise der These positioniert statt als eigenständige Launches.

Produkt	Was es ist	Warum es zählt
DuMate	Allzweck-Agent – Baidus horizontales Flaggschiff-Agent-Produkt	Direkter Treffer gegen OpenAIs Operator/ChatGPT-as-agent-Positionierung
Miaoda (App + Enterprise)	Coding-Agent, der ~90 % des eigenen Codes generiert	Die „Wegwerf-Software"-These konkret gemacht
Baidu YiJing (aktualisiert)	Multi-Agent-Plattform für digitale Menschen, Livestreaming und Echtzeit-Videogenerierung	Der für KI-Video-Creator direkt relevanteste Launch
Famou Agent 2.0	Selbst-evolvierende Agent-Plattform	Kontinuierlich lernende Autonomie ist das langfristige DAA-Spiel

Der für unser Thema interessante Punkt ist YiJing. Eine Multi-Agent-Plattform für digitale Menschen – das System ist nicht ein einzelnes Videomodell mit Chat-Frontend, sondern eine Orchestrierungsschicht, die mehrere spezialisierte Agents für Livestreaming und Echtzeit-Videogenerierung koordiniert: ein Agent fürs Skript, einer für Sprachausgabe und Lippensynchron, einer für Kamera und Einstellung, einer für Publikumsreaktion, einer für Produkt-/Promo-Logik. Das Videomodell selbst liegt irgendwo darunter, als austauschbare Komponente.

Wer eine Ein-Produkt-Demonstration der Agent-Ära-These im Video-Bereich suchte, fand sie heute in YiJing. Der Pitch ist nicht mehr „wir haben das beste Videomodell". Er ist „wir orchestrieren die besten Agents auf welchem Videomodell auch immer gerade gewinnt".

Warum jetzt, nicht vor sechs Monaten

Diese These zirkuliert seit einem Jahr in technischen Kreisen. Was Lis Keynote vom 14. Mai zu einem echten Wendepunkt macht – nicht zu einer weiteren Konferenzrede –, ist der empirische Stapel, der in den vier Monaten davor angekommen ist.

Sora 2s wirtschaftlicher Zusammenbruch. OpenAIs Flaggschiff-Consumer-Videomodell schloss in 84 Tagen, weil 15 Mio. $/Tag Inferenz gegen 2,1 Mio. $ Umsatz das ist, was passiert, wenn man eine reine Modellstrategie auf Consumer-Skala wettet. Siehe unser Post-mortem.
HappyHorse 1.0s sofortiger Aufstieg. Alibabas unified Audio-Video-Modell holte die Arena-#1 in 48 Stunden mit einer 15B-Parameter-Architektur. Siehe unser Review.
Architektonische Konvergenz. Seedance 2.0, HappyHorse 1.0 und das geleakte Gemini Omni zeigen alle auf dasselbe Ziel – Unified-Audio-Video-Modelle mit multimodalen Inputs. Wenn die Architektur kommoditisiert, muss Differenzierung woanders leben.
Preisverdichtung. Top-Tier-Video-API-Preise sind von $0,50/Sek (Veo 3.1) Richtung $0,05/Sek (HappyHorse 1.0) kollabiert. Modelle, die gleich viel kosten und gleich aussehen, können keine Burggraben-Basis sein.

Li prognostizierte den Wandel nicht. Er benannte ihn. Der Unterschied ist real, und der Unterschied macht diese Keynote für den Rest von 2026 zitierfähig.

Was die Agent-Ära konkret für KI-Video bedeutet

Fünf konkrete Reframings, wenn KI-Video ernsthafter Teil Ihres Workflows ist.

1. Die Frage „Welches Modell soll ich verwenden?" ist jetzt obsolet

Die korrekte Frage ist „Welcher Agent-Stack routet meine Arbeit für jede Einstellung zum besten Modell?" Veo 3.1 mag am besten für physikintensive Bewegung sein. HappyHorse 1.0 mag am besten für synchronisierte Sprache sein. Seedance 2.0 mag am besten für Multi-Shot-Sequenzen sein. Kling 3.0 mag am besten für stilisierte Ästhetik sein. Die Aufgabe des Agents ist zu wissen, was zu was passt, und automatisch zu routen. Wer noch ein Modell wählt und sich festlegt, spielt ein Spiel aus 2024.

2. Output-Qualität hängt nicht mehr von Modellfähigkeit ab

Sie hängt von Prompt-Übersetzungsqualität, Shot-Zerlegungsqualität, Kontinuitätsmanagement über Shots hinweg und Audio-Video-Sync-Verifikation ab – nichts davon macht das Modell selbst gut. Das sind Agent-Schicht-Probleme. Zwei Teams mit denselben Basis-Modellen produzieren völlig unterschiedlichen Output, weil ihre Agents völlig unterschiedlich sind.

3. Die Differenzierungseinheit wandert von „Modell" zu „Workflow"

Wenn Sie ein Tool sind, konkurrieren Sie nicht mit „wir nutzen Veo 3.1". Sie konkurrieren mit dem, was Ihr Agent auf Veo 3.1, Seedance 2.0, HappyHorse, Kling, Luma und Runway zusammen tut. Das ist die Kernthese unserer Mid-2026-Bilanz, und Lis Keynote ist der öffentliche Validierungsmoment.

4. DAA framt die Erfolgskennzahl für Creator-Tools neu

Auf DAU optimierte Tools drängen Nutzer zum Herumbasteln – mehr Prompt-Iterationen, mehr Knöpfe, mehr Re-Renders. Auf DAA optimierte Tools drängen Nutzer zur Delegation – weniger Interaktionen, mehr Autonomie, mehr Arbeit pro Sitzung. Die beiden Design-Philosophien sind unvereinbar, und die zweite hat Li heute gesegnet. KI-Video-Tools, die noch auf Zeit-in-App optimieren, wird am 14. Mai gesagt: Ihr verfolgt die falsche Zahl.

5. „Wegwerf-Agents" werden zur Einheit kreativer Arbeit

Das neuartigste Framing der Keynote. Statt eines permanenten Tools mit persistenten Einstellungen bekommt jedes Projekt seinen eigenen maßgeschneiderten Agent – fürs Briefing zusammengebaut, für die Constraint optimiert, beim Deliverable aufgelöst. Für kommerzielle Video-Arbeit ist das, wie YiJing-artige Multi-Agent-Plattformen skalieren: nicht als ein einziges Super-Tool, sondern als Infrastruktur, um projektspezifische Agent-Ensembles hochzuziehen.

Was das konkret für Sie bedeutet

Drei konkrete Situationen.

Wenn Sie individueller Creator sind

Hören Sie auf, Modelle zu benchmarken. Fangen Sie an, Workflows zu benchmarken. Die nützlichste Frage der nächsten 60 Tage ist nicht „Ist HappyHorse besser als Veo für meine Arbeit?" – sondern „Routet mein aktuelles Tool intelligent zwischen Modellen, oder mache ich das Routing manuell?" Wenn manuell, absorbieren Sie Arbeit, die die Schicht über dem Modell absorbieren sollte.

Wenn Sie ein Video-Produkt bauen

Behandeln Sie Ihre Modellintegrationen als Konfiguration, nicht als Code. Das Tempo der Modellreleases – Omni nächste Woche, was Anthropic als Nächstes liefert, was ByteDance in Q3 liefert – garantiert, dass Hardcodierung auf ein spezifisches Modell eine Sechs-Monats-Zeitbombe ist. Bauen Sie Differenzierung in der Agent-Schicht, nicht in der Modellschicht.

Wenn Sie ein Enterprise-Kreativteam führen

Lis „gemischte Mensch-Agent-Formationen" ist kein Slogan. Es ist ein konkretes operatives Ziel – kleine menschliche Teams, die große Agent-Flotten beaufsichtigen, wobei die menschliche Rolle Urteilsvermögen, Brief-Schreiben und Qualitätsgating ist. Die Wettbewerbsfrage der nächsten 18 Monate: Kann Ihr Team 10× Output bei gleicher Kopfzahl produzieren, indem Produktions-Ausführung an Agents delegiert wird, während kreative Richtung in menschlichen Händen bleibt.

Drei Signale, die jetzt zu beobachten sind

Die Agent-Ära-These wurde nun öffentlich ausgesprochen. Drei nachgelagerte Ereignisse entscheiden, ob sie beschleunigt oder stockt.

Signal 1: Google I/O 2026 (19.–20. Mai)

Wenn Gemini Omni als Unified-Omni-Modalitäts-Modell mit Agent-nativer Oberfläche (Chat-getriebenes Editieren, Inline-Remixing, Workflow-Templates) ausgeliefert wird, bestätigt Google implizit dieselbe These. Wenn Omni nur ein eigenständiges Videomodell mit API-Zugang ist, spielt Google weiter Modellwettbewerb.

Signal 2: Die Hailuo/MiniMax-Anhörung (29. Mai)

Disney, Warner Bros. und NBCUniversal gegen MiniMax kommt am 29. Mai vor Richter Blumenfeld. Wenn der Fall in der Sache voranschreitet, wird die juristische Infrastruktur für „Agents, die zwischen Videomodellen routen" kompliziert – Agents werden haftbar für das, was ihre gerouteten Modelle produzieren.

Signal 3: DAA-Adoption durch Großplattformen

Beobachten Sie, ob OpenAI, Anthropic, Meta oder Google DAA (oder eine äquivalente Autonomie-Metrik) in ihren nächsten Quartalsberichten übernehmen. Wenn ja, gewinnt Lis Framing per Default. Wenn sie weiter Tokens und DAU melden, ist die Agent-Ära-Erzählung noch umkämpft. Q2-2026-Calls sind der erste Test.

Fazit

Das Nützlichste an Lis Keynote vom 14. Mai ist nicht, dass er neue Produkte ankündigte – DuMate, Miaoda und YiJing sind Baidu-förmige Reaktionen auf ein Muster, das schon da war. Das Nützlichste ist, dass er einem Wandel, der seit vier Monaten im KI-Video-Markt leise passierte, einen Namen und eine Kennzahl gab.

Die Modellschicht bewegt sich weiter. Gemini Omni nächste Woche, Seedance 3 in Q3, was auch immer Anthropic und Meta bis Jahresende liefern. Nichts wird sich beruhigen. Das ist genau der Punkt. Wenn die Modellschicht in permanenter Bewegung ist, ist der einzig dauerhafte Bauplatz eine Schicht höher – auf der Agent-Schicht, wo Workflows kapitalisieren und Orchestrierung sich mit Nutzung verbessert.

Für KI-Video ist das keine Spekulation. Wir operieren auf dieser These seit Anfang 2026, weshalb Genra als End-to-End-Agent auf Veo + Seedance gebaut ist statt als Frontend für ein einzelnes Modell. Die Aufgabe des Agents ist, zum richtigen Modell zu routen, Kontinuität über Shots zu managen, Audio und Bewegung zu synchronisieren und den finalen Cut zu liefern, ohne Sie zur Routing-Engine zu machen. Lis Keynote ist die expliziteste öffentliche Bestätigung dieser Architekturentscheidung, die wir dieses Jahr bekommen haben.

Fünf Tage bis Google I/O. Fünfzehn Tage bis zur MiniMax-Anhörung. Die nächsten zwei Wochen sagen Ihnen, wie viel der Branche dem zustimmt, was Li heute in Peking gesagt hat.

FAQ

Was ist Baidu Create 2026?

Baidus jährliche KI-Entwicklerkonferenz, 13.–14. Mai 2026 in Peking. CEO Robin Li erklärte am 14. Mai in der Keynote die KI-Branche für „Modellwettbewerb"-frei und schlug Daily Active Agents (DAA) als neue definierende Kennzahl vor.

Was kündigte Robin Li tatsächlich an?

Vier Produkte: DuMate (Allzweck-Agent), Miaoda App + Enterprise (Coding-Agent, ~90 % Eigenkode), aktualisierte Baidu-YiJing-Multi-Agent-Plattform für digitale Menschen und Famou Agent 2.0. Dazu die DAA-Kennzahl und eine dreischichtige KI-Evolutionstheorie.

Was sind Daily Active Agents (DAA)?

Die Agent-Ära-Entsprechung des DAU. Misst, wie viele autonome Agents an einem Tag tatsächlich nützliche Arbeit verrichten. Li prognostizierte globale DAA über 10 Mrd.

Warum zählt das für KI-Video?

KI-Video belegt die Agent-Ära-These seit vier Monaten empirisch – Sora 2 brach mit reiner Modellstrategie zusammen, HappyHorse 1.0 schloss die Modellqualitätslücke in 48 Stunden, Top-API-Preise verdichteten sich 10×.

Was ist „Wegwerf-Software" und wie betrifft das Video?

Lis Framing für eine Welt, in der Code-Generierung billig genug ist, dass Nutzer Einmal-Software für spezifische Aufgaben zusammenstellen und verwerfen. Auf Video übertragen: projektspezifische Agent-Ensembles statt permanenter Tools.

Was sollte ich als Creator tun?

Hören Sie auf, Modelle isoliert zu benchmarken. Fangen Sie an, Workflows zu benchmarken. Wenn Sie Modelle manuell auswählen, absorbieren Sie Arbeit, die zur Agent-Schicht gehört.

Über den Autor
Chris Sherman berichtet über KI-Video-Technologie und kreative Produktions-Workflows. Folgen Sie @GenraAI für Live-Berichterstattung der Google I/O 2026 (19.–20. Mai) und der MiniMax-Anhörung (29. Mai).