Robin Li ogłasza koniec ery modelu — wideo AI udowadnia to od miesięcy

· Chris Sherman

CEO Baidu otworzył dziś Create 2026 w Pekinie, wyłączając pytanie «który model jest najlepszy?» z istotnych pytań. Dla wideo AI to tylko usankcjonowało czteromiesięczny konsensus.

Zdanie, które przekadrowało branżę

Robin Li, współzałożyciel i CEO Baidu, wszedł na scenę Baidu Create 2026 w Pekinie 14 maja 2026 r. i wypowiedział zdanie, które będzie cytowane przez resztę roku: branża AI, powiedział, wyszła z «rywalizacji modeli» i weszła w «erę agentów». Połączył to z konkretną propozycją — nowym wskaźnikiem branży mają być Daily Active Agents (DAA), odpowiednik DAU mobilnego internetu w erze agentów, z globalnymi DAA prognozowanymi docelowo powyżej 10 miliardów.

Jeśli śledziłeś rynek wideo AI przez ostatnie cztery miesiące, nic z tego nie jest prognozą. To opis.

Sora 2 załamała się w 84 dni pod ciężarem strategii tylko-model. HappyHorse 1.0 zdobył Arenę #1 w 48 godzin i natychmiast zredukował znaczącą lukę techniczną między czołowymi modelami wideo do niemal zera. Seedance 2.0, Veo 3.1 i wyciekły Gemini Omni zbiegają się w tym samym architekturalnym punkcie końcowym. Pytanie «który model jest najlepszy?» przestało być interesujące gdzieś między lutym a kwietniem. Dziś Robin Li stał się pierwszym CEO dużej platformy, który powiedział to na głos.

Ten tekst jest o tym, co konkretnie znaczy dla wideo AI — co powiedział Li, co Baidu faktycznie dziś wysłał i dlaczego keynote o warstwie aplikacji w Pekinie okazuje się najtrafniejszym opisem krajobrazu konkurencyjnego na drugą połowę 2026 r.

Co Li faktycznie powiedział

1. «Teoria ewolucji AI» — przesunięcie w trzech warstwach

Li przedstawił to, co nazwał «teorią ewolucji AI»: równoczesna transformacja w trzech warstwach. Agenty ewoluują z pasywnych odpowiadaczy w autonomicznych wykonawców, którzy stale uczą się ze środowiska. Jednostki ewoluują ze zwykłych użytkowników w «super jednostki», które współistnieją z AI, by mnożyć własną produkcję. Przedsiębiorstwa ewoluują od współpracy człowiek-człowiek do mieszanych formacji człowiek-agent działających jak zjednoczone super-organizacje.

Po zdjęciu retorycznego opakowania rdzeń jest jasny: migracja wartości oddala się od surowej zdolności modelu w stronę warstwy, która orkiestruje zdolność w wyniki. To warstwa agenta.

2. Daily Active Agents (DAA) — nowy wskaźnik

Li zaproponował DAA jako następcę ery agentów dla DAU. Argument: tokeny mierzą koszt, nie wartość — wskaźnik wejścia, nie wyjścia. Aktywne agenty natomiast mierzą, jak często autonomiczne oprogramowanie faktycznie wykonuje użyteczną pracę dla kogoś. Prognozował, że globalne DAA mogą ostatecznie przekroczyć 10 miliardów.

3. «Jednorazowe oprogramowanie» — aplikacje jako artefakty do wyrzucenia

Trzecia nić: gdy koszty generowania kodu się załamują, bariery rozwoju oprogramowania spadają, a jednorazowe lub «do wyrzucenia» aplikacje stają się realne. Użytkownicy generują oprogramowanie na zamówienie do jednego zadania i je odrzucają. Li przywołał agenta kodowania Miaoda od Baidu — który ponoć generuje około 90 % własnego kodu — jako działający przykład.

Co Baidu faktycznie dziś wysłał

ProduktCzym jestDlaczego ma znaczenie
DuMateAgent ogólnego przeznaczenia — flagowy poziomy produkt agenta BaiduBezpośrednie uderzenie w pozycjonowanie Operator/ChatGPT-as-agent OpenAI
Miaoda (app + enterprise)Agent kodujący generujący ~90 % własnego koduTeza «jednorazowego oprogramowania» skonkretyzowana
Baidu YiJing (zaktualizowany)Wieloagentowa platforma cyfrowych ludzi do livestreamingu i generowania wideo w czasie rzeczywistymNajbardziej bezpośrednio istotne wydanie dla twórców wideo AI
Famou Agent 2.0Samoewoluująca platforma agentówAutonomia z ciągłą nauką to długoterminowe zagranie DAA

Interesujący dla naszego tematu jest YiJing. To wieloagentowa platforma cyfrowych ludzi — czyli system nie jest pojedynczym modelem wideo z przyklejonym interfejsem czatu. To warstwa orkiestracji koordynująca kilku wyspecjalizowanych agentów do livestreamingu i generowania w czasie rzeczywistym: jeden agent do scenariusza, jeden do prezentacji i synchronizacji ust, jeden do kamery i wyboru ujęcia, jeden do reakcji publiczności, jeden do logiki produktu/promocji. Model wideo gdzieś pod spodem, jako wymienialny komponent.

Dlaczego teraz, a nie sześć miesięcy temu

  1. Ekonomiczna zapaść Sory 2. Flagowy konsumencki model wideo OpenAI zamknął się w 84 dni. Post-mortem.
  2. Natychmiastowy wzlot HappyHorse 1.0. Ujednolicony model audio-wideo Alibaby zdobył Arenę #1 w 48 godzin. Recenzja.
  3. Konwergencja architekturalna. Seedance 2.0, HappyHorse 1.0 i wyciekły Gemini Omni wskazują na ten sam cel.
  4. Kompresja cen. Ceny API wideo z najwyższej półki od 0,50 $/s (Veo 3.1) do 0,05 $/s (HappyHorse 1.0).

Li nie przewidział zmiany. Nazwał ją.

Co era agentów konkretnie znaczy dla wideo AI

1. Pytanie «którego modelu mam używać?» jest przestarzałe

Poprawne pytanie to «który stos agentów kieruje moją pracę do najlepszego modelu dla każdego ujęcia?». Veo 3.1 może być najlepszy dla ruchu o wysokiej fizyce. HappyHorse 1.0 dla zsynchronizowanej mowy. Seedance 2.0 dla sekwencji wieloujęciowych. Kling 3.0 dla stylizowanej estetyki.

2. Jakość wyjścia przestaje zależeć od zdolności modelu

Zależy od jakości tłumaczenia promptu, dekompozycji ujęć, zarządzania ciągłością, weryfikacji synchronizacji audio-wideo — rzeczy, których sam model nie robi dobrze.

3. Jednostka różnicowania przesuwa się z «modelu» na «przepływ pracy»

Jeśli jesteś narzędziem, nie konkurujesz na «używamy Veo 3.1». Konkurujesz na tym, co twój agent robi ponad Veo 3.1, Seedance 2.0, HappyHorse, Kling, Lumą i Runwayem razem. Centralna teza przeglądu połowy 2026.

4. DAA przekadrowuje miarę sukcesu dla narzędzi twórców

Narzędzia zoptymalizowane pod DAU popychają użytkownika do dłubania. Narzędzia zoptymalizowane pod DAA popychają do delegowania — mniej interakcji, większa autonomia, więcej pracy na sesję.

5. «Jednorazowe agenty» stają się jednostką pracy twórczej

Zamiast stałego narzędzia z trwałymi ustawieniami, każdy projekt ma swojego dedykowanego agenta — zmontowanego pod brief, zoptymalizowanego pod ograniczenie, rozpuszczonego przy dostarczeniu.

Co to znaczy konkretnie dla ciebie

Jeśli jesteś indywidualnym twórcą

Przestań benchmarkować modele. Zacznij benchmarkować przepływy. Najbardziej użyteczne pytanie na najbliższe 60 dni to nie «czy HappyHorse jest lepszy od Veo do mojej pracy?» — tylko «czy moje obecne narzędzie inteligentnie kieruje między modelami, czy ja robię routing ręcznie?».

Jeśli budujesz produkt wideo

Traktuj integracje modeli jako konfigurację, nie kod. Tempo wydań gwarantuje, że twarde kodowanie pod konkretny model to bomba z opóźnieniem sześciomiesięcznym.

Jeśli prowadzisz enterprise'owy zespół kreatywny

«Mieszane formacje człowiek-agent» Li to nie slogan. To konkretny cel operacyjny.

Trzy sygnały do obserwacji stąd

Sygnał 1: Google I/O 2026 (19–20 maja)

Jeśli Gemini Omni ukaże się jako ujednolicony model omni-modalności z interfejsem natywnie agentowym, Google milcząco aprobuje tę samą tezę.

Sygnał 2: Rozprawa Hailuo/MiniMax (29 maja)

Disney, Warner Bros. i NBCUniversal przeciwko MiniMax przed sędzią Blumenfeldem 29 maja.

Sygnał 3: Adopcja DAA przez duże platformy

Patrz, czy OpenAI, Anthropic, Meta lub Google przyjmą DAA (lub równoważny wskaźnik autonomii) w następnych ujawnieniach kwartalnych.

Wniosek

Najbardziej użyteczne w keynote Li z 14 maja nie jest to, że ogłosił nowe produkty — DuMate, Miaoda i YiJing to odpowiedzi w kształcie Baidu na wzorzec, który już istniał. Najbardziej użyteczne jest to, że nadał nazwę i wskaźnik zmianie, która od czterech miesięcy cicho zachodziła na rynku wideo AI.

Warstwa modelu nadal się porusza. Będzie się poruszać. Gemini Omni w przyszłym tygodniu, Seedance 3 w Q3, cokolwiek Anthropic i Meta wyślą do końca roku. Nic się nie ustabilizuje. To właśnie sedno. Gdy warstwa modelu jest w stałym ruchu, jedyne trwałe miejsce do budowy to piętro wyżej — w warstwie agenta, gdzie przepływy się kumulują, a orkiestracja poprawia się z użyciem.

Dla wideo AI to nie spekulacja. Działamy na tej tezie od początku 2026 r., dlatego Genra jest zbudowana jako agent end-to-end nad Veo + Seedance zamiast jako front-end dla jednego modelu. Praca agenta to kierowanie do właściwego modelu, zarządzanie ciągłością między ujęciami, synchronizacja audio i ruchu oraz dostarczanie finalnego cięcia bez czynienia z ciebie silnika routingu. Keynote Li to najbardziej wyraźne publiczne poparcie tego wyboru architektonicznego, jakie otrzymaliśmy w tym roku.

Pięć dni do Google I/O. Piętnaście do rozprawy MiniMax. Najbliższe dwa tygodnie powiedzą ci, jaka część branży zgadza się z tym, co Li powiedział dziś w Pekinie.

FAQ

Czym jest Baidu Create 2026?

Doroczna konferencja deweloperów AI Baidu, 13–14 maja 2026 r. w Pekinie. CEO Robin Li użył keynote 14 maja, by ogłosić erę agentów i zaproponować DAA jako nowy wskaźnik definiujący.

Co dokładnie ogłosił Robin Li?

Cztery produkty: DuMate (agent ogólny), Miaoda app + enterprise (~90 % własnego kodu), zaktualizowany Baidu YiJing i Famou Agent 2.0. Plus wskaźnik DAA i trójwarstwowa teoria ewolucji AI.

Czym są Daily Active Agents (DAA)?

Era-agentów-odpowiednik DAU. Mierzy, ilu autonomicznych agentów wykonuje użyteczną pracę dziennie. Li prognozuje globalnie > 10 mld.

Dlaczego ma to znaczenie konkretnie dla wideo AI?

Wideo AI udowodniło tezę empirycznie w cztery miesiące.

Co to «jednorazowe oprogramowanie» w odniesieniu do wideo?

Dla wideo: zespoły agentów specyficzne dla projektu zamiast stałych narzędzi.

Co powinienem zrobić jako twórca?

Przestać benchmarkować modele w izolacji. Zacząć benchmarkować przepływy pracy.


O autorze
Chris Sherman pisze o technologii wideo AI i przepływach produkcji kreatywnej. Śledź @GenraAI dla relacji na żywo z Google I/O 2026 (19–20 maja) i rozprawy MiniMax (29 maja).