Robin Li dichiara finita l'era del modello — il video IA lo dimostra da mesi

· Chris Sherman

Il CEO di Baidu ha aperto oggi Create 2026 a Pechino ritirando «quale modello è il migliore?» come domanda rilevante. Per il video IA questo non fa altro che ufficializzare un consenso di quattro mesi.

La frase che ha riformulato l'industria

Robin Li, cofondatore e CEO di Baidu, è salito sul palco di Baidu Create 2026 a Pechino il 14 maggio 2026 e ha pronunciato una frase che sarà citata per tutto il resto dell'anno: l'industria IA, ha detto, è andata oltre la «competizione dei modelli» ed è entrata nell'«era dell'agent». L'ha abbinata a una proposta concreta — la nuova metrica deve essere Daily Active Agents (DAA), l'equivalente era-agent del DAU dell'internet mobile, con una proiezione globale di DAA che alla fine supera i 10 miliardi.

Se hai seguito il mercato del video IA negli ultimi quattro mesi, nulla di tutto questo è una previsione. È una descrizione.

Sora 2 è crollato in 84 giorni sotto il peso di una strategia solo-modello. HappyHorse 1.0 ha preso Arena #1 in 48 ore comprimendo all'istante a circa zero il divario tecnico significativo tra modelli video di frontiera. Seedance 2.0, Veo 3.1 e il trapelato Gemini Omni convergono allo stesso punto di arrivo architettonico. La domanda «quale modello è il migliore?» ha smesso di essere interessante tra febbraio e aprile. Oggi, Robin Li è diventato il primo CEO di grande piattaforma a dirlo ad alta voce.

Questo articolo riguarda cosa significa specificamente per il video IA — cosa ha detto Li, cosa ha spedito Baidu oggi e perché un keynote sul layer applicativo a Pechino si rivela la descrizione più accurata che abbiamo del panorama competitivo per la seconda metà del 2026.

Cosa Li ha realmente detto

1. La «teoria dell'evoluzione IA» — un cambio a tre livelli

Li ha esposto una «teoria dell'evoluzione IA»: trasformazione simultanea su tre livelli. Gli agent evolvono da responder passivi a esecutori autonomi che imparano continuamente dall'ambiente. Gli individui evolvono da utenti ordinari a «super individui» che coesistono con l'IA per moltiplicare la propria produzione. Le imprese evolvono dalla collaborazione umano-umano a formazioni umano-agent miste che operano come super-organizzazioni unificate.

Tolta la retorica, il nucleo è chiaro: la migrazione di valore si sposta dalla capacità grezza del modello al layer che orchestra capacità in risultati. È il layer agent. Tutto sopra il modello — cosa viene generato, quando, da quale agent, per quale utente, al servizio di quale obiettivo — è dove vive il valore del prossimo decennio.

2. Daily Active Agents (DAA) — una nuova metrica

Li ha proposto DAA come successore era-agent del DAU. L'argomento: i token misurano costo, non valore — sono metrica di input, non di output. Gli agent attivi, viceversa, misurano quanto spesso software autonomo fa lavoro utile per qualcuno. Ha proiettato che il DAA globale potrebbe alla fine superare i 10 miliardi.

Sia il numero giusto o no, l'inquadramento conta. DAU premiava l'engagement (tempo in app). DAA premia l'autonomia produttiva (lavoro completato senza intervento utente). Le implicazioni di design per strumenti di creazione video sono molto diverse.

3. «Software usa e getta» — applicazioni come artefatti scartabili

Il terzo filo: man mano che i costi di generazione di codice crollano, le barriere allo sviluppo software scendono e le applicazioni «monouso» o «usa e getta» diventano sostenibili. Gli utenti generano software su misura per una singola attività e lo scartano. Li ha citato l'agent di codifica Miaoda di Baidu — che genererebbe circa il 90 % del proprio codice — come esempio funzionante.

Per il video, l'analogia è ovvia. L'agent che genera uno spot di 60 secondi non è una funzionalità in uno strumento; è una costruzione temporanea, specifica per task, che esiste finché dura il progetto.

Cosa Baidu ha realmente spedito oggi

ProdottoCos'èPerché conta
DuMateAgent di scopo generale — prodotto agent orizzontale di punta di BaiduTiro diretto al posizionamento Operator/ChatGPT-as-agent di OpenAI
Miaoda (app + enterprise)Agent di codifica che genera ~90 % del proprio codiceLa tesi «software usa e getta» resa concreta
Baidu YiJing (aggiornato)Piattaforma multi-agent di umani digitali per livestreaming e generazione video real-timeLancio più direttamente rilevante per creatori video IA
Famou Agent 2.0Piattaforma agent auto-evolutivaAutonomia ad apprendimento continuo è la giocata DAA di lungo termine

L'interessante per il nostro tema è YiJing. È una piattaforma multi-agent di umani digitali — significa che il sistema non è un singolo modello video con sopra un'interfaccia chat. È un layer di orchestrazione che coordina più agent specializzati per livestreaming e generazione real-time: un agent per script, uno per consegna e sync labiale, uno per camera e scelta inquadratura, uno per reazione del pubblico, uno per logica prodotto/promo. Il modello video è da qualche parte sotto, trattato come componente intercambiabile.

Perché ora, non sei mesi fa

  1. Collasso economico di Sora 2. Vedi il nostro post-mortem.
  2. Ascesa istantanea di HappyHorse 1.0. Arena #1 in 48 ore con architettura 15B. Vedi la recensione.
  3. Convergenza architettonica. Seedance 2.0, HappyHorse 1.0 e Gemini Omni puntano alla stessa destinazione.
  4. Compressione prezzi. API video top da 0,50 $/sec (Veo 3.1) verso 0,05 $/sec (HappyHorse 1.0).

Li non ha previsto il cambiamento. L'ha nominato.

Cosa significa l'era dell'agent per il video IA

1. La domanda «quale modello uso?» è obsoleta

La corretta è «quale stack agent instrada il mio lavoro al miglior modello per ogni inquadratura?». Veo 3.1 può essere migliore per movimento ad alta fisica. HappyHorse 1.0 per parlato sincronizzato. Seedance 2.0 per sequenze multi-shot. Kling 3.0 per estetica stilizzata. Il lavoro dell'agent è saperlo e instradare automaticamente.

2. La qualità di output non dipende più dalla capacità del modello

Dipende dalla qualità di traduzione prompt, decomposizione inquadrature, gestione continuità, verifica sync audio-video — cose che il modello da solo non fa bene. Sono problemi di layer agent.

3. L'unità di differenziazione passa da «modello» a «workflow»

Se sei uno strumento, non competi su «usiamo Veo 3.1». Competi su cosa il tuo agent fa sopra Veo 3.1, Seedance 2.0, HappyHorse, Kling, Luma e Runway combinati. È la tesi centrale del bilancio di metà 2026.

4. DAA riformula la metrica di successo per strumenti creatori

Strumenti ottimizzati per DAU spingono utente al fiddling — più iterazioni di prompt, più manopole, più re-render. Strumenti ottimizzati per DAA spingono alla delega — meno interazioni, più autonomia, più lavoro per sessione.

5. Gli «agent usa e getta» diventano unità del lavoro creativo

Invece di strumento permanente con impostazioni persistenti, ogni progetto ha il suo agent su misura — assemblato per il brief, ottimizzato per il vincolo, dissolto alla consegna.

Cosa significa per te

Se sei creator individuale

Smetti di benchmark dei modelli. Inizia con i workflow. La domanda utile dei prossimi 60 giorni non è «HappyHorse è meglio di Veo per il mio lavoro?» — è «il mio strumento attuale instrada intelligentemente tra modelli, o lo faccio a mano?». Se a mano, assorbi lavoro che dovrebbe essere assorbito dal layer sopra il modello.

Se costruisci un prodotto video

Tratta le integrazioni modello come configurazione, non codice. Il ritmo dei rilasci garantisce che hardcoding di un modello specifico è una bomba a sei mesi.

Se gestisci un team creativo enterprise

Le «formazioni umano-agent miste» di Li non sono uno slogan. Sono obiettivo operativo concreto.

Tre segnali da osservare da qui

Segnale 1: Google I/O 2026 (19–20 maggio)

Se Gemini Omni esce come modello omni-modalità unificato con interfaccia agent-native, Google avalla implicitamente la stessa tesi.

Segnale 2: Udienza Hailuo/MiniMax (29 maggio)

Disney, Warner Bros. e NBCUniversal contro MiniMax davanti al giudice Blumenfeld il 29 maggio.

Segnale 3: Adozione DAA da grandi piattaforme

Osserva se OpenAI, Anthropic, Meta o Google adottano DAA nei prossimi report trimestrali.

Conclusione

Il più utile del keynote di Li del 14 maggio non è che ha annunciato nuovi prodotti — DuMate, Miaoda e YiJing sono risposte a forma di Baidu a un pattern già lì. Il più utile è che ha dato nome e metrica a un cambio in atto silenziosamente nel mercato video IA da quattro mesi.

Il layer modello continua a muoversi. Continuerà. Gemini Omni la settimana prossima, Seedance 3 in Q3, qualunque cosa Anthropic e Meta spediscano entro fine anno. Niente si stabilizzerà. È esattamente il punto. Quando il layer modello è in movimento permanente, l'unico posto durevole dove costruire è un livello sopra — al layer agent, dove i workflow capitalizzano e l'orchestrazione migliora con l'uso.

Per il video IA non è speculazione. Operiamo su questa tesi da inizio 2026, motivo per cui Genra è costruito come agent end-to-end sopra Veo + Seedance invece che come frontend per un singolo modello. Il lavoro dell'agent è instradare al modello giusto, gestire continuità tra inquadrature, sincronizzare audio e movimento, consegnare il taglio finale senza farti diventare il motore di routing. Il keynote di Li è l'avallo pubblico più esplicito di questa scelta architettonica avuto quest'anno.

Cinque giorni a Google I/O. Quindici all'udienza MiniMax. Le prossime due settimane ti diranno quanta industria concorda con quel che Li ha detto oggi a Pechino.

FAQ

Cos'è Baidu Create 2026?

Conferenza annuale sviluppatori IA di Baidu, 13–14 maggio 2026 a Pechino. Robin Li ha usato il keynote del 14 per dichiarare l'era dell'agent e proporre DAA come metrica definitoria.

Cosa ha esattamente annunciato Robin Li?

Quattro prodotti: DuMate (agent generale), Miaoda (~90 % autocodice), Baidu YiJing aggiornato e Famou Agent 2.0. Più metrica DAA e teoria evoluzione IA in tre livelli.

Cosa sono i Daily Active Agents (DAA)?

Equivalente era-agent del DAU. Misura quanti agent autonomi fanno lavoro utile al giorno. Li proietta > 10 miliardi.

Perché conta per il video IA?

Il video IA ha provato la tesi empiricamente in quattro mesi.

Cos'è il «software usa e getta» applicato al video?

Per video: ensemble agent specifici di progetto invece di strumenti permanenti.

Cosa dovrei fare da creator?

Smettere di benchmark modelli in isolamento. Iniziare con i workflow.


Sull'autore
Chris Sherman copre tecnologia video IA e flussi di produzione creativa. Segui @GenraAI per copertura live di Google I/O 2026 (19–20 maggio) e udienza MiniMax (29 maggio).