Robin Li Nyatakan Era Model Berakhir — Video AI Sudah Membuktikan Sejak Berbulan-bulan

· Chris Sherman

CEO Baidu membuka Create 2026 di Beijing hari ini dengan menyingkirkan «model mana yang terbaik?» sebagai pertanyaan yang penting. Untuk video AI, ini hanya meresmikan konsensus berusia empat bulan.

Kalimat yang membingkai ulang industri

Robin Li, co-founder dan CEO Baidu, naik panggung Baidu Create 2026 di Beijing pada 14 Mei 2026 dan menyampaikan kalimat yang akan dikutip sepanjang sisa tahun ini: industri AI, katanya, telah melewati «kompetisi model» dan memasuki «era agent». Ia memasangkannya dengan proposal konkret — metrik baru harus Daily Active Agents (DAA), ekuivalen era-agent dari DAU internet seluler, dengan proyeksi DAA global akhirnya melebihi 10 miliar.

Jika Anda mengikuti pasar video AI selama empat bulan terakhir, tidak ada di sini yang merupakan prediksi. Ini deskripsi.

Sora 2 runtuh dalam 84 hari di bawah berat strategi hanya-model. HappyHorse 1.0 merebut Arena #1 dalam 48 jam dan langsung memampatkan kesenjangan teknis bermakna antar model video frontier ke sekitar nol. Seedance 2.0, Veo 3.1, dan Gemini Omni yang bocor semua bertemu pada titik akhir arsitektural yang sama. Pertanyaan «model mana yang terbaik?» berhenti menarik di antara Februari dan April. Hari ini, Robin Li menjadi CEO platform besar pertama yang mengatakannya keras-keras.

Tulisan ini tentang apa artinya secara spesifik untuk video AI — apa yang dikatakan Li, apa yang Baidu kirimkan hari ini, dan mengapa keynote tentang lapisan aplikasi di Beijing ternyata adalah deskripsi paling akurat yang kami miliki tentang lanskap kompetitif untuk paruh kedua 2026.

Apa yang sebenarnya Li katakan

1. «Teori evolusi AI» — pergeseran tiga lapisan

Li memaparkan apa yang ia sebut «teori evolusi AI»: transformasi simultan di tiga lapisan. Agent berevolusi dari penjawab pasif menjadi eksekutor otonom yang terus belajar dari lingkungan. Individu berevolusi dari pengguna biasa menjadi «super individu» yang hidup berdampingan dengan AI untuk melipatgandakan output. Perusahaan berevolusi dari kolaborasi manusia-manusia ke formasi campuran manusia-agent yang beroperasi sebagai super-organisasi terpadu.

Lepaskan kemasan retoris dan inti jelas: migrasi nilai bergerak menjauh dari kemampuan model mentah menuju lapisan yang mengorkestrasi kemampuan menjadi hasil. Itu lapisan agent.

2. Daily Active Agents (DAA) — metrik baru

Li mengusulkan DAA sebagai pengganti era-agent dari DAU. Argumennya: token mengukur biaya, bukan nilai — metrik input, bukan output. Agent aktif sebaliknya mengukur seberapa sering perangkat lunak otonom benar-benar melakukan pekerjaan berguna atas nama seseorang. Ia memproyeksikan DAA global akhirnya bisa melebihi 10 miliar.

3. «Perangkat lunak sekali pakai» — aplikasi sebagai artefak dapat dibuang

Benang ketiga: saat biaya generasi kode runtuh, hambatan pengembangan turun dan aplikasi sekali-pakai menjadi layak. Pengguna menghasilkan perangkat lunak khusus untuk satu tugas dan membuangnya. Li mengutip agent coding Miaoda dari Baidu — yang dilaporkan menghasilkan ~90% kodenya sendiri — sebagai contoh berfungsi.

Apa yang Baidu benar-benar kirimkan hari ini

ProdukApa ituMengapa penting
DuMateAgent serbaguna — produk agent horizontal andalan BaiduTembakan langsung ke posisi Operator/ChatGPT-as-agent OpenAI
Miaoda (app + enterprise)Agent coding yang menghasilkan ~90% kode sendiriTesis «perangkat lunak sekali pakai» dikonkretkan
Baidu YiJing (diperbarui)Platform multi-agent manusia digital untuk livestreaming dan generasi video real-timePeluncuran paling langsung relevan untuk kreator video AI
Famou Agent 2.0Platform agent yang berevolusi sendiriOtonomi pembelajaran berkelanjutan adalah taruhan DAA jangka panjang

Yang menarik untuk topik kita adalah YiJing. Platform multi-agent manusia digital — artinya sistemnya bukan satu model video dengan antarmuka chat ditempel. Ini lapisan orkestrasi yang mengoordinasi beberapa agent terspesialisasi untuk livestreaming dan generasi real-time: satu agent untuk skrip, satu untuk penyampaian dan sync bibir, satu untuk kamera dan pilihan shot, satu untuk respons audiens, satu untuk logika produk/promo. Model video di suatu tempat di bawah, sebagai komponen yang dapat dipertukarkan.

Mengapa sekarang, bukan enam bulan lalu

  1. Keruntuhan ekonomi Sora 2. Model video konsumen andalan OpenAI tutup dalam 84 hari. Post-mortem.
  2. Kenaikan instan HappyHorse 1.0. Model audio-video terpadu Alibaba merebut Arena #1 dalam 48 jam. Ulasan.
  3. Konvergensi arsitektural. Seedance 2.0, HappyHorse 1.0, dan Gemini Omni yang bocor semua menunjuk tujuan yang sama.
  4. Kompresi harga. Harga API video tier atas dari $0,50/dtk (Veo 3.1) ke $0,05/dtk (HappyHorse 1.0).

Li tidak memprediksi pergeseran. Ia menamainya.

Apa arti era agent untuk video AI

1. Pertanyaan «model mana yang harus saya gunakan?» kini usang

Pertanyaan tepat adalah «stack agent mana yang merutekan pekerjaan saya ke model terbaik untuk setiap shot?». Veo 3.1 mungkin terbaik untuk gerakan fisika tinggi. HappyHorse 1.0 untuk ucapan tersinkronisasi. Seedance 2.0 untuk urutan multi-shot. Kling 3.0 untuk estetika berstilisasi. Tugas agent adalah tahu yang mana ke yang mana dan merutekan otomatis.

2. Kualitas output berhenti tentang kemampuan model

Tergantung kualitas terjemahan prompt, dekomposisi shot, manajemen kontinuitas, verifikasi sync audio-video — yang model sendiri tidak lakukan dengan baik.

3. Unit diferensiasi bergerak dari «model» ke «workflow»

Jika Anda alat, Anda tidak bersaing pada «kami menggunakan Veo 3.1». Anda bersaing pada apa yang agent Anda lakukan di atas Veo 3.1, Seedance 2.0, HappyHorse, Kling, Luma, dan Runway gabungan. Tesis sentral tinjauan pertengahan 2026.

4. DAA membingkai ulang metrik sukses untuk alat kreator

Alat dioptimalkan untuk DAU mendorong pengguna mengutak-atik. Alat dioptimalkan untuk DAA mendorong delegasi — interaksi lebih sedikit, otonomi lebih tinggi, kerja lebih banyak selesai per sesi.

5. «Agent sekali pakai» menjadi unit kerja kreatif

Alih-alih alat permanen dengan pengaturan persisten, setiap proyek memiliki agent kustom — dirakit untuk brief, dioptimalkan untuk kendala, dibubarkan saat penyerahan.

Apa artinya khusus untuk Anda

Jika Anda kreator individu

Berhenti benchmark model. Mulai benchmark workflow. Pertanyaan paling berguna 60 hari ke depan bukan «HappyHorse lebih baik dari Veo untuk pekerjaan saya?» — tapi «apakah alat saya saat ini merutekan antar model dengan cerdas, atau saya melakukan routing manual?».

Jika Anda membangun produk video

Perlakukan integrasi model Anda sebagai konfigurasi, bukan kode. Tempo rilis menjamin bahwa hardcoding ke model spesifik adalah bom waktu enam bulan.

Jika Anda memimpin tim kreatif enterprise

«Formasi campuran manusia-agent» Li bukan slogan. Itu target operasional konkret.

Tiga sinyal untuk diperhatikan dari sini

Sinyal 1: Google I/O 2026 (19–20 Mei)

Jika Gemini Omni diluncurkan sebagai model omni-modalitas terpadu dengan antarmuka agent-native, Google secara implisit mengesahkan tesis yang sama.

Sinyal 2: Sidang Hailuo/MiniMax (29 Mei)

Disney, Warner Bros., dan NBCUniversal melawan MiniMax di hadapan Hakim Blumenfeld pada 29 Mei.

Sinyal 3: Adopsi DAA oleh platform besar

Perhatikan apakah OpenAI, Anthropic, Meta, atau Google mengadopsi DAA (atau metrik otonomi setara) dalam pengungkapan triwulanan berikutnya.

Kesimpulan

Hal paling berguna tentang keynote Li 14 Mei bukan dia mengumumkan produk baru — DuMate, Miaoda, dan YiJing adalah respons berbentuk Baidu terhadap pola yang sudah ada. Hal paling berguna adalah dia memberi nama dan metrik untuk pergeseran yang diam-diam terjadi di pasar video AI selama empat bulan.

Lapisan model terus bergerak. Akan terus bergerak. Gemini Omni minggu depan, Seedance 3 di Q3, apa pun yang Anthropic dan Meta kirim hingga akhir tahun. Tidak ada yang akan settle. Itulah persis intinya. Saat lapisan model berada dalam gerak permanen, satu-satunya tempat tahan lama untuk membangun adalah satu tingkat di atas — di lapisan agent, tempat workflow berlipat dan orkestrasi membaik dengan penggunaan.

Untuk video AI, ini bukan spekulasi. Kami beroperasi pada tesis ini sejak awal 2026, itulah mengapa Genra dibangun sebagai agent end-to-end di atas Veo + Seedance alih-alih frontend untuk model tunggal. Tugas agent adalah merutekan ke model yang tepat, mengelola kontinuitas antar shot, menyinkronkan audio dan gerak, dan mengirimkan potongan akhir tanpa menjadikan Anda mesin routing. Keynote Li adalah dukungan publik paling eksplisit untuk pilihan arsitektur ini yang kami dapatkan tahun ini.

Lima hari hingga Google I/O. Lima belas hingga sidang MiniMax. Dua minggu ke depan akan memberitahu Anda berapa banyak industri yang setuju dengan apa yang Li katakan hari ini di Beijing.

FAQ

Apa itu Baidu Create 2026?

Konferensi pengembang AI tahunan Baidu, 13–14 Mei 2026 di Beijing. CEO Robin Li menggunakan keynote 14 Mei untuk menyatakan era agent dan mengusulkan DAA sebagai metrik baru.

Apa yang sebenarnya Robin Li umumkan?

Empat produk: DuMate (agent umum), Miaoda app + enterprise (~90% kode sendiri), Baidu YiJing diperbarui, dan Famou Agent 2.0. Plus metrik DAA dan teori evolusi AI tiga lapisan.

Apa itu Daily Active Agents (DAA)?

Padanan era-agent untuk DAU. Mengukur berapa agent otonom melakukan kerja berguna per hari. Li memproyeksikan global > 10 miliar.

Mengapa penting khusus untuk video AI?

Video AI membuktikan tesis secara empiris dalam empat bulan.

Apa «perangkat lunak sekali pakai» yang diterapkan ke video?

Untuk video: ansambel agent spesifik proyek alih-alih alat permanen.

Apa yang harus saya lakukan sebagai kreator?

Berhenti benchmark model dalam isolasi. Mulai benchmark workflow.


Tentang penulis
Chris Sherman meliput teknologi video AI dan workflow produksi kreatif. Ikuti @GenraAI untuk liputan langsung Google I/O 2026 (19–20 Mei) dan sidang MiniMax (29 Mei).