Sześć przesunięć, które już się dokonały: bilans wideo AI w połowie 2026
· Genra AITo nie prognozy. To inwentaryzacja. Sześć rzeczy, które już są tym, jak działa branża.
Pole zreorganizowało się, gdy patrzyłeś na modele
Gdybyś zasnął w Sylwestra i obudził się w tym tygodniu, grudniowa wersja AI-wideo 2025 byłaby nie do poznania. Logo Sora 2 zniknęło ze strony produktu OpenAI. Najczęściej cytowanym modelem na Artificial Analysis Video Arena jest model, który osiem tygodni temu nie istniał i został anonimowo wprowadzony przez zespół, o którym nie słyszałeś. Dominujące pytanie na forach twórców już nie brzmi „który model jest najlepszy?". Brzmi „którego agenta uruchomić?". Spójność postaci — wąskie gardło każdego długiego projektu AI przez dwa lata — przestała być cechą, którą ktoś by w ogóle reklamował. Dziesięciominutowy dokument AI, na początku roku demo na poziomie wyprawy na księżyc, dziś jest czymś, co pojedynczy twórca dostarcza w tydzień roboczy.
Pięć miesięcy. Sześć przesunięć. Żadne z nich nie jest prognozą. To inwentaryzacja: rzeczy, które do maja 2026 stały się tym, jak branża faktycznie działa. Poniżej, czym każde było, co się zmieniło, konkretne wydarzenia i liczby za tym oraz co to oznacza dla tego, co zbudujesz dalej.
Przesunięcie 1 — Upadek Sora 2 zreorganizował szczyt pola
Największe pojedyncze wydarzenie roku do tej pory ma daty: 31 grudnia 2025 (premiera Sora 2), 10 stycznia 2026 (zawieszenie darmowego planu po dziesięciu dniach), 24 marca 2026 (ogłoszenie zamknięcia), 26 kwietnia 2026 (zamknięcie aplikacji konsumenckiej i webowej), 24 września 2026 (zakończenie API). Osiemdziesiąt cztery dni jako produkt konsumencki. Najbardziej hajpowana premiera w historii wideo AI została wysłana, osiągnęła szczyt i zwinęła się w jednym kwartale fiskalnym.
Kluczowe liczby warto zobaczyć w jednym miejscu, bo wyjaśniają, dlaczego upadek był tak szybki i dlaczego pociągnął za sobą tyle kapitału i wiarygodności:
| Metryka | Sora 2 | Punkt odniesienia w branży |
|---|---|---|
| Szczytowy dzienny koszt inferencji | ~$15 mln | O rząd wielkości niżej przy porównywalnym wolumenie |
| Całkowity przychód przypisywalny do Sora | ~$2,1 mln | — |
| Stosunek kosztu do przychodu | ~600:1 | <5:1 dla zrównoważonych narzędzi AI |
| Dostęp do 1080p | $200/mies. (tylko plan Pro) | $5–30/mies. (Kling, Runway, Seedance) |
| Rozdzielczość planu standardowego | 480p | 720p–1080p |
| Czas trwania darmowego planu | 10 dni, potem usunięty | Stały (ograniczony) |
Szkoda Disneya pogorszyła szkodę finansową. OpenAI i Disney podpisali umowę IP na około 1 miliard dolarów obejmującą ponad 200 postaci z Disney Animation, Marvel, Pixar i Star Wars — największą fosę, jaką jakikolwiek produkt wideo AI kiedykolwiek ustawił. Disney miał zostać powiadomiony mniej niż godzinę przed publicznym ogłoszeniem. Umowa się zawaliła. Trzech szefów OpenAI powiązanych z konsumenckim wysiłkiem Sora odeszło w kolejnych tygodniach. (Pełny post-mortem w naszej analizie, dlaczego OpenAI zabiło Sorę.)
Efekt downstream nie był taki, jak przewidywała większość obserwatorów. Użytkownicy Sora 2 nie migrowali do jednego zamiennika. Podzielili się, przewidywalnie, według zadania: praca z dużą fizyką do Veo 3.1, wstawienie osoby w stylu cameo do Kling 3, długie sekwencje storyboardowane do Seedance 2, fotorealistyczna praca z ludźmi do Luma Ray3 (raport migracyjny szczegółowo śledzi podział w dokąd poszli użytkownicy Sora). Rama „jeden model, by ich wszystkich opanować" zawaliła się razem z Sora 2; nie została odbudowana.
Co to zmieniło. Ranking jest teraz specyficzny dla zadania. Nie ma odpowiedzi w stylu Q1 „top model" na maj 2026. Właściwe pytanie brzmi, który model pasuje do ujęcia, które kręcisz, a na to pytanie coraz częściej odpowiada agent, a nie twórca. Era, w której pojedynczy bohaterski model mógł zakotwiczyć stack twórcy, zakończyła się i raczej nie wróci — ekonomia, która zabiła Sora 2 ($600 obliczeń na każdy $1 przychodu), nie jest specyficzna dla OpenAI; dotyczy każdego, kto próbuje być dominującym dostawcą pojedynczego modelu.
Przesunięcie 2 — Nowy szczyt rankingu, zbudowany w Chinach
Druga strona odejścia Sora 2 polega na tym, że modele chińskie nie tylko wypełniły lukę — zajęły szczyt tablicy. Najjaśniejszą ilustracją jest HappyHorse 1.0, najbardziej konsekwencyjne uruchomienie modelu w 2026 do tej pory.
W dniu 7 kwietnia 2026 bezimienny model pojawił się w rankingu Artificial Analysis Video Arena. Bez komunikatu prasowego, bez logo zespołu, bez publicznych wag. W ciągu 48 godzin był na #1 w Text-to-Video z Elo 1389 — 115 punktów przed Seedance 2.0, poprzednim liderem — i na #1 w Image-to-Video z Elo 1416. 9–10 kwietnia konto X @AthAI_Official ujawniło, że model został zbudowany przez ATH AI Innovation Unit Alibaby, kierowany przez Zhanga Di — byłego VP w Kuaishou i architekta stojącego za Kling AI. Architekt jednego chińskiego lidera po cichu odszedł i odbudował konkurenta u innego chińskiego giganta. (Pełna analiza techniczna w naszej analizie HappyHorse 1.0.)
HappyHorse to nagłówek, ale nie jedyny punkt danych. Szczyt pola według ścieżek na połowę maja 2026:
| Ścieżka | Lider (maj 2026) | Gdzie zbudowany | Dlaczego |
|---|---|---|---|
| Stylizowany / animacja / bliski anime | Kling 3.0 | Kuaishou (CN) | Natywne 4K/60fps, najhojniejszy darmowy plan w topie |
| Wideo marki i produktu sterowane referencjami | Seedance 2.0 | ByteDance (CN) | Wielomodalny system referencji, dystrybucja przez CapCut do ~500M+ użytkowników |
| Krótki dramat chińskojęzyczny i e-commerce CN | HappyHorse 1.0 | Alibaba (CN) | Natywna synchronizacja ust mandaryńska, najniższa cena API w topie |
| Dialogi, jakość broadcast | Veo 3.1 | Google (USA) | Audio 48 kHz natywne, profesjonalna nauka koloru, Extend |
| Fotorealistyczny człowiek / talking head | Luma Ray3 | Luma (USA) | Tekstura skóry, zachowanie oczu, mikroekspresje |
| Lokalnie / on-prem / NDA | LTX-2 | Lightricks (IL) | Pierwszy model z topu działający niezawodnie na pojedynczym wysokiej klasy GPU konsumenckim |
Trzech z tych sześciu liderów jest zbudowanych w Chinach. Osiemnaście miesięcy temu ta konfiguracja nie istniała. Wzór nie jest nacjonalistyczny — przepływ talentów i kapitału, który produkuje te modele, jest stabilny: mobilność architektów w stylu Zhanga Di pomiędzy Kuaishou, ByteDance i Alibabą jest teraz powszechna, a sama dystrybucja CapCut od ByteDance to fosa, której żaden zachodni startup wideo AI nie jest w stanie dorównać.
Co to zmieniło. Warstwa modelu nie jest już domyślnie zachodnia. Niezależni twórcy, agencje i studia budujące stacki produkcyjne w 2026 muszą oceniać modele chińskie na równi z amerykańskimi — nie jako kontrolę różnorodności, ale jako konieczność zdolności i ceny. Zespoły, które nauczyły się tego w Q1, już mają znaczącą przewagę w kosztach i w dostępie do zdolności (synchronizacja ust mandaryńska, stylizacja w pobliżu anime, generacje poniżej $0,50), których modele zachodnie po prostu nie dopasowują.
Przesunięcie 3 — Warstwa modelu stała się towarem
Towarzysz Przesunięcia 2 to fakt, że luka między „najlepszym" a „wystarczająco dobrym" zawaliła się. Do maja 2026 sześć top-modeli wideo AI generuje szeroko porównywalne wyniki na klip dla większości przypadków użycia. Różnica Elo między #1 a #6 w rankingu Arena mieści się w paśmie, które dwa lata temu oddzielało modele frontier od pretendentów. Wciąż istnieją realne specjalizacje — tabela ścieżek powyżej je wymienia — ale luki zwęziły się do ścieżek, a nie absolutów.
Dane cenowe opowiadają tę samą historię z innego kąta. Koszt generowania klipu 5 s 1080p u czołowych modeli w maju 2026:
| Model | Koszt na generację (5s, 1080p) | Plan startowy |
|---|---|---|
| Kling 3.0 | ~$0,20–0,30 | $5/mies. |
| HappyHorse 1.0 | ~$0,25 | Tylko API, najniższa cena w topie |
| Seedance 2.0 | ~$0,40–0,60 | W cenie płatnych planów CapCut |
| Veo 3.1 | ~$0,60–0,80 | Powiązane z rozliczeniem Vertex AI / Google AI Studio |
| Luma Ray3 | ~$0,80–1,20 | $10/mies. startowy, premia za realizm człowieka |
| Sora 2 (wycofany) | ~$4–8 | $200/mies. Pro za 1080p |
Wiersz Sora 2 pozostawiono celowo. 10–20-krotna luka kosztowa między Sora 2 a resztą pola nie była cechą przewagi jakościowej OpenAI — była cechą wyborów architektonicznych, które nie były komercyjnie przeżywalne. Po odejściu Sora 2 pozostały zakres jest wąski, a ceny się zbiegają. Zespół twórczy pracujący na stałym miesięcznym budżecie może teraz produkować mniej więcej tę samą objętość porównywalnej jakości output niezależnie od wybranego top-modelu.
To rok, w którym konwergencja zdolności przestała być przewidywana i zaczęła być obserwowana. Klip wygenerowany przez Veo 3.1 i klip wygenerowany przez Kling 3 z tego samego promptu są teraz rozróżnialne głównie według preferencji stylistycznej, nie jakości.
Co to zmieniło. Wartość migrowała w górę. Jeśli wszyscy mają dostęp do porównywalnych generatorów w zbieżnych cenach, czynnikiem różnicującym staje się to, jak je orkiestrujesz — które ujęcie do którego modelu, jak utrzymywana jest tożsamość pomiędzy nimi, jak planowana jest łuk audio, jak znikają szwy w montażu. Ta warstwa orkiestracji jest następnym przesunięciem i największym z nich.
Przesunięcie 4 — Prompt engineering umarł, a warstwa agenta przejęła ster
„Prompt engineering" znajdował się w każdym ogłoszeniu pracy w 2024 i był uwypuklaną umiejętnością w większości profili kandydatów AI w 2025. Do maja 2026 brzmi anachronicznie — jak napisanie „programista HTML" w CV w 2020. Umiejętność, którą opisywał, była realna, ale stanowisko się przeniosło.
Zamiennikiem jest agent. W 2026 twórca opisuje intencję prostym językiem agentowi wideo. Agent dzieli brief na beaty, kieruje każdy beat do najbardziej odpowiedniego modelu bazowego z tabeli ścieżek powyżej, generuje zablokowane referencje postaci i ponownie wykorzystuje je w każdym ujęciu, planuje voiceover i muzykę jako jednolite ciągłe łuki (nie sekcja po sekcji), składa wynik i eksportuje go dla docelowej platformy. Twórca pozostaje na poziomie reżyserii kreatywnej; agent obsługuje wykonanie. Workflow „napisz idealny prompt", który definiował 2023–2025, został wycofany przez każdy poważnie podchodzący do objętości output zespół.
Strukturalna przyczyna tego, że to się stało, jest prosta: przy sześciu modelach commodity w różnych ścieżkach (Przesunięcie 3) prompt napisany przez człowieka nie konkuruje z agentem, który wie, który model obsługuje dialog vs. stylizację vs. ujęcia z dużą ilością referencji, i odpowiednio kieruje ruch. Obciążenie poznawcze ręcznego prowadzenia tego routingu przez 60+ generacji dla 10-minutowego utworu jest tym, co zabiło workflow wielonarzędziowy. (Aby uzyskać szczegóły inżynieryjne, nasz przewodnik terenowy dotyczący długiego wideo AI dokładnie pokazuje, które problemy warstwa agenta wchłania, a których prompty nie potrafią.)
Sygnał z rynku pracy jest konkretny. Oferty dla ról „prompt engineer" osiągnęły szczyt w połowie 2024 i spadają od Q4 2025. Oferty dla „AI workflow operator", „AI production lead" i „AI agent operator" — ról wprost opisujących operacje na poziomie agenta — rosły szybko w tym samym okresie. Środek ciężkości umiejętności przesuwa się ze sprytnego sformułowania ku orkiestracji systemu.
Co to zmieniło. Szybkość i jakość produkcji skoczyły razem, i skoczyły na tej samej osi: orkiestracji. Twórcy, którzy w połowie 2026 produkują najczęściej oglądane wideo AI, niekoniecznie są najlepszymi autorami promptów — są tymi, którzy używają najlepszego agenta. Zespoły zatrudniające w połowie 2026 za umiejętność promptowania zatrudniają na stanowisko, które w wolumenie zakładanym przez ich poprzedników już nie istnieje.
Przesunięcie 5 — Spójność postaci przestała być wąskim gardłem
Przez większość 2024 i 2025 jedyna skarga, która rozwalała długie projekty AI, brzmiała: „nie potrafię utrzymać twarzy postaci spójnej między ujęciami". Zjawisko miało nazwę w kręgach twórców — „drift" — i prawo ludowe: w trzeciej minucie twój protagonista to inna osoba. Dokumenty zawalały się na tym. Seriale dramatu pionowego zawalały się na tym. Cała kategoria długiego formatu była tym zakorkowana.
Do maja 2026 drift przestał być skargą. Trwałość tożsamości — między odcinkami, między dniami zdjęciowymi, między granicami modeli — jest teraz wymaganiem bazowym dla każdej pipeline napędzanej agentem. Pojedyncza zablokowana referencja jest ponownie wykorzystywana przez 80 odcinków dramatu pionowego, 60 generacji dokumentu lub kilka miesięcy kampanii marki bez widocznej degradacji.
Mechanizm techniczny, który to rozwiązał, nie znajduje się na żadnym modelu. Laboratoria modeli skorzystały (mogły przestać próbować utrzymywać trwałość wewnątrz jednej 8-sekundowej generacji), ale to warstwa agenta nad modelami zamknęła lukę. Agent trzyma token tożsamości, przenosi go między generacjami, przełącza się między modelami bazowymi bez utraty tokenu i ponownie sprawdza wynik pod kątem driftu przy każdym wyjściu. Działa to niezależnie od tego, czy generator bazowy to Veo, Seedance, Kling czy HappyHorse.
Implikacja dla tego, co jest teraz możliwe:
| Format | Przed 2026 | Połowa 2026 |
|---|---|---|
| 80-odcinkowy dramat pionowy | $150K–$300K live-action; próby AI widocznie złamane przy odc. 10 | Solo zespół, ~6 tygodni, niskie pięciocyfrowe, tożsamość trzyma w 80 odcinkach |
| 10-minutowy dokument | Wykonalny tylko z kotwicą archiwum + wywiad | Pojedynczy twórca, 3–5 dni roboczych, tożsamość zachowana przez 60+ generacji |
| Wielotygodniowa kampania marki | Wymagała dopasowanych zdjęć live-action dla utrzymania postaci | Agent utrzymuje markę-zablokowaną postać AI przez tygodnie generacji |
Co to zmieniło. Długi format stał się wykonalny. Bez trwałości postaci wideo AI było strukturalnie medium krótkim — klipy 60-sekundowe i izolowane sceny. Wraz z nią cała kategoria długoformatowa otworzyła się dla niezależnych zespołów. Większa część przesunięcia kosztów produkcji opisana w Przesunięciu 6 jest następstwem tego pojedynczego odblokowania technicznego.
Przesunięcie 6 — Koszty produkcji zawaliły się o rząd wielkości
Liczby z dramatu pionowego są publiczne i dramatyczne, więc to one są najczęściej cytowane: budżety produkcji live-action $150K–$300K na serię zostały zastąpione przez pipeline'y AI lądujące w niskich pięciocyfrowych kwotach dla równoważnego czasu trwania 70–100 odcinków. To samo przesunięcie, ciszej, dotyczy explainera, reklamy marki, treści typu talking head i animowanej krótkometrażówki. Pozycja kosztów, która kiedyś dominowała każdy budżet wideo, działa teraz w jednocyfrowych procentach całkowitych wydatków projektu dla pipeline'ów napędzanych AI.
Aby umieścić liczby przy przesunięciu kosztów produkcji między formatami:
| Format | Budżet live-action 2024 | Budżet pipeline AI 2026 | Redukcja |
|---|---|---|---|
| Seria dramatu pionowego 80 odc. | $150K–$300K | $10K–$25K | ~10–15× |
| 10-minutowy explainer | $8K–$30K | $300–$1500 | ~20× |
| 30-sekundowa reklama marki | $30K–$200K+ | $1K–$5K | ~20–40× |
| 5-minutowa animacja krótkometrażowa | $20K–$80K (studio animacji) | $500–$2500 | ~30× |
Jedno krytyczne zastrzeżenie musi być na stole, ponieważ to ta linia decyduje, czy upadek kosztów rzeczywiście składa się w historię creator economy: koszty płatnego pozyskania nie spadły. CPM reklamy w Meta i TikTok są rok do roku z grubsza płaskie. Wiążącym ograniczeniem na to, czy wideo wyprodukowane AI znajdzie publikę, pozostają wydatki reklamowe za nim, które dla serii dramatu pionowego pozostają w zakresie $200K–$1M, aby znaleźć hit. Linia produkcyjna spadła 10–40×; linia dystrybucji nie. (Rozłożyliśmy dokładnie, jak to wygląda dla niezależnych zespołów próbujących prowadzić model ReelShort/DramaBox w playbooku ReelShort.)
Matematyka hit-rate zmieniła się odpowiednio. W 2024 niezależny zespół potrzebował z grubsza $2M kapitału obrotowego, aby uruchomić pojedynczą serię dramatu pionowego live-action z realistycznymi szansami przetrwania (jedna próba produkcyjna $150K + płatne pozyskanie; pojedyncza nieudana próba była strukturalnie fatalna). W 2026 ten sam niezależny zespół może dostarczyć 8–12 prób rocznie w porównywalnym budżecie, ponieważ każda próba kosztuje ~10–15× mniej. Kategorie napędzane hitami nagradzają liczbę prób. Matematyka tego, kto może grać w grę, zmieniła się — po cichu, ale całkowicie.
Co to zmieniło. Ekonomia tego, kto może spróbować produkcji, została zreorganizowana. Zespoły indie, które nie mogły sobie pozwolić na pojedynczą próbę live-action, mogą teraz prowadzić portfel prób. Studia, które korzystały ze starej fosy kosztów stałych, ją straciły. Koncentracja kapitału na szczycie branży (model, który zadziałał dla streamingu lat 2010) jest zastępowana przez fragmentację kapitału na brzegu.
Co te sześć przesunięć łącznie znaczy
Czytane razem, to nie sześć niezależnych historii. To jedna historia opowiedziana z sześciu kątów: środek ciężkości w wideo AI przesunął się z modelu na warstwę orkiestracji nad nim. Kolejność operacji jest przyczynowa:
- Sora 2 zawaliła się (Przesunięcie 1) — usuwając z pola najjaśniejszą tezę „jeden model, by ich wszystkich opanować".
- Modele chińskie zajęły szczytowe ścieżki (Przesunięcie 2) — zastępując model pojedynczego lidera modelem wielobiegunowym.
- Warstwa modelu stała się towarem (Przesunięcie 3) — wpychając lukę „najlepszy" vs „wystarczająco dobry" w pasmo, które nie odróżnia outputu twórcy.
- Prompt engineering umarł, warstwa agenta wzrosła (Przesunięcie 4) — bo przy wielobiegunowej warstwie modelu żaden człowiek nie kieruje ruchem między modelami szybciej niż agent.
- Spójność postaci przestała być wąskim gardłem (Przesunięcie 5) — bo warstwa agenta, która przenosi tokeny tożsamości między modelami, rozwiązała to, czego nie potrafił żaden pojedynczy model.
- Koszty produkcji zawaliły się o rząd wielkości (Przesunięcie 6) — bo tanie modele commodity plus działający agent równa się struktura kosztów na minutę, której żaden workflow live-action nie zrówna.
Jeśli budujesz zespół kreatywny w 2026, praktyczny wniosek brzmi: „mamy dostęp do Veo i Kling i Seedance" przestało być sensownym twierdzeniem o zdolnościach. Każdy zespół ma dostęp. To, co oddziela zespół dostarczający 10 użytecznych wideo miesięcznie od zespołu dostarczającego 1, to infrastruktura agenta między briefami a modelami.
Co to oznacza dla reszty 2026
Z tych sześciu przesunięć płyną trzy reorientacje. Każda zastępuje coś, co działało w 2025 i przestało działać w pewnym momencie pierwszej połowy 2026.
1. Przestań rankować modele, zacznij je routować
Jeśli twój zespół nadal prowadzi wewnętrzne ewaluacje, aby wybrać „najlepszy model" dla stacku, wydajesz energię, którą 2025 by nagrodził, a której 2026 przestał nagradzać. Ranking Arena jest informacyjny, ale właściwym pytaniem jest, która kombinacja modeli — wyznaczona przez agenta — pasuje do twoich potrzeb produkcji w dialogu, referencji, stylizacji i języku. Stos agenta wielomodelowego pokonuje teraz stos pojedynczego modelu pod względem kosztu, prędkości i jakości jednocześnie. Nie ma już argumentu za podejściem „standaryzujemy na Veo" lub „standaryzujemy na Kling", które działało 12 miesięcy temu.
2. Zatrudniaj za kreatywną reżyserię, nie za umiejętność promptowania
Wąskim gardłem na outputie nie jest już „czy ktoś umie napisać dobry prompt". To „czy ktoś ma jasną wizję tego, co zrobić". Prompt engineering jako sygnał rekrutacyjny jest wskaźnikiem wyprzedzającym, że zespół rozwiązuje niewłaściwy problem. Awansuj według kreatywnego osądu, gustu i dyscypliny redakcyjnej. Szkól z operowania agentem, którego nauka jest szybsza i bardziej specyficzna dla platformy, na której się osiedlisz.
3. Planuj produkcję w skali portfelowej
Upadek kosztów oznacza, że stać cię na wypróbowanie wielu rzeczy i zabicie większości. Zespoły wygrywające resztę 2026 to te, które dostarczają 8–12 prób rocznie i uczą się z danych, a nie te, które stawiają budżet kwartalny na pojedynczy projekt sztandarowy. Kategorie napędzane hitami — dramat pionowy, social commerce, content sponsorowany — nagradzają liczbę prób. Planuj odpowiednio: oddziel „koszt produkcji na próbę" od „wydatków na płatne pozyskanie na zwycięzcę" i przestań mieszać je w jednej linii budżetowej.
Wniosek
Pierwsze pięć miesięcy 2026 nie przyniosło jednej wielkiej niespodzianki. Przyniosły sześć strukturalnych przesunięć, które razem przesunęły branżę z jej fundamentu 2025. Warstwa modelu nie jest już produktem. Warstwa agenta nim jest. Upadek Sora 2 i anonimowy awans HappyHorse 1.0 na #1 w 48 godzin to nie niepowiązane historie — to ta sama historia, opowiedziana raz od strony porażki, a raz od strony sukcesu. Model, który wygrywa, to nie najlepszy model. To model, który jest najlepszy wewnątrz agenta, który wie, którego modelu wybrać.
Jeśli twój stack wideo AI nadal traktuje wybór modelu jako centralną decyzję, prowadzisz playbook 2025 na rynku 2026. To się daje naprawić. Większość zespołów, które będą rządzić w drugiej połowie roku, robi to naprawę w tym kwartale.
Najczęściej zadawane pytania
Jakie było największe pojedyncze wydarzenie w wideo AI w pierwszej połowie 2026?
Zamknięcie Sora 2 ogłoszone 24 marca, wchodzące w życie 26 kwietnia. Produkt utrzymał się 84 dni jako oferta konsumencka i spalił się w stosunku kosztów do przychodów około 600:1 (~$15M/dzień inferencji vs ~$2,1M całkowitych przychodów), ciągnąc za sobą planowaną umowę IP z Disneyem na $1B. Efekt downstream — konwergencja zdolności i przesunięcie wartości do warstwy agenta — jest zmianą strukturalną.
Czy chińskie modele wideo AI rzeczywiście są na szczycie w 2026?
Tak, i nie jako uogólnienie. Konkretnie: Kling 3.0 (Kuaishou) prowadzi w stylizowanym i animowanym; Seedance 2.0 (ByteDance) prowadzi w wideo marki sterowanym referencjami i jest dystrybuowane przez CapCut do ~500M+ użytkowników; HappyHorse 1.0 (ATH AI Innovation Unit Alibaby, prowadzone przez Zhanga Di) prowadzi w krótkim dramacie chińskojęzycznym i zwieńczyło ranking Arena w 48 godzin od anonimowej premiery 7 kwietnia. Trzy z sześciu modeli klasy produkcyjnej w użyciu globalnym są teraz budowane w Chinach.
Czy prompt engineering nadal jest użyteczną umiejętnością w połowie 2026?
Do produkcji gotowego wideo, nie — agenci w dużej mierze wchłonęli tę pracę, a oferty „prompt engineer" spadają od Q4 2025. Do badań, oceny i eksperymentów z przypadkami brzegowymi umiejętność promptowania nadal się liczy. Ale to już nie wąskie gardło outputu produkcyjnego.
O ile tańsze jest wideo AI od live-action w 2026?
Z grubsza 10–40× zależnie od formatu. 80-odcinkowy dramat pionowy spadł z $150K–$300K do $10K–$25K. 30-sekundowa reklama marki spadła z $30K–$200K do $1K–$5K. Koszty płatnego pozyskania nie spadły.
Na czym powinien się skupić zespół wideo AI teraz?
Budować lub adoptować zjednoczoną warstwę agenta, która obsługuje routing między modelami, trwałość tożsamości postaci, planowanie łuku audio i montaż. Warstwa modelu jest commodity; różnicowanie żyje o poziom wyżej.
Czy warstwa modelu znów stanie się różnicującym czynnikiem?
Mało prawdopodobne na obecnej trajektorii. Ekonomia obliczeń, która zabiła Sora 2, dotyczy każdego, kto próbuje być dominującym dostawcą pojedynczego modelu. Specjalizacja w obrębie ścieżek będzie kontynuowana, ale era, w której jeden model mógł zakotwiczyć cały stack, dobiegła końca.
O autorze
Chris Sherman pisze o technologii wideo AI i twórczych workflow produkcyjnych. Po więcej poradników dotyczących produkcji wideo AI śledź @GenraAI.