โรบิน หลี่ ประกาศจบยุคโมเดล — วิดีโอ AI พิสูจน์มาเงียบๆ สี่เดือน

· Chris Sherman

CEO ของ Baidu เปิด Create 2026 ที่ปักกิ่งวันนี้โดยปลดคำถาม «โมเดลไหนดีที่สุด?» ออกจากคำถามสำคัญ สำหรับวิดีโอ AI นี่เพียงทำให้ฉันทามติอายุสี่เดือนเป็นทางการ

ประโยคที่เปลี่ยนกรอบอุตสาหกรรม

โรบิน หลี่ ผู้ร่วมก่อตั้งและ CEO ของ Baidu ขึ้นเวที Baidu Create 2026 ในปักกิ่งเมื่อวันที่ 14 พฤษภาคม 2026 และทิ้งประโยคที่จะถูกอ้างอิงตลอดปีที่เหลือ: อุตสาหกรรม AI เขากล่าว ได้ผ่าน «การแข่งโมเดล» และเข้าสู่ «ยุค agent» แล้ว เขาควบไปกับข้อเสนอที่เป็นรูปธรรม — ตัวชี้วัดใหม่ควรเป็น Daily Active Agents (DAA) เทียบเท่า DAU ของอินเทอร์เน็ตมือถือในยุค agent โดยคาดการณ์ DAA ทั่วโลกในที่สุดเกิน 10 พันล้าน

หากคุณติดตามตลาดวิดีโอ AI ในสี่เดือนที่ผ่านมา ไม่มีอะไรในนี้เป็นคำทำนาย เป็นคำอธิบาย

Sora 2 ล่มใน 84 วันภายใต้น้ำหนักของกลยุทธ์โมเดลเดี่ยว HappyHorse 1.0 คว้า Arena #1 ใน 48 ชั่วโมงและบีบช่องว่างทางเทคนิคที่มีความหมายระหว่างโมเดลวิดีโอชั้นนำให้เหลือเกือบศูนย์ทันที Seedance 2.0, Veo 3.1 และ Gemini Omni ที่รั่วล้วนรวมจุดสิ้นสุดทางสถาปัตยกรรมเดียวกัน คำถาม «โมเดลไหนดีที่สุด?» หยุดน่าสนใจในช่วงระหว่างกุมภาพันธ์ถึงเมษายน วันนี้ โรบิน หลี่ กลายเป็น CEO แพลตฟอร์มใหญ่คนแรกที่พูดออกมาเปิดเผย

บทความนี้เกี่ยวกับสิ่งที่หมายความเฉพาะกับวิดีโอ AI — สิ่งที่หลี่พูด สิ่งที่ Baidu ส่งมอบจริงวันนี้ และเหตุใดคีย์โน้ตเกี่ยวกับชั้นแอปพลิเคชันในปักกิ่งจึงกลายเป็นคำอธิบายภูมิทัศน์การแข่งขันที่แม่นยำที่สุดสำหรับครึ่งหลังของ 2026

สิ่งที่หลี่พูดจริงๆ

1. «ทฤษฎีวิวัฒนาการ AI» — การเปลี่ยนแปลงสามชั้น

หลี่นำเสนอสิ่งที่เขาเรียกว่า «ทฤษฎีวิวัฒนาการ AI»: การเปลี่ยนแปลงพร้อมกันในสามชั้น Agent วิวัฒนาการจากผู้ตอบสนองเชิงรับเป็นผู้ดำเนินการอัตโนมัติที่เรียนรู้จากสภาพแวดล้อมอย่างต่อเนื่อง บุคคล วิวัฒนาการจากผู้ใช้ทั่วไปเป็น «บุคคลขั้นสูง» ที่อยู่ร่วมกับ AI เพื่อทวีผลผลิตของตน องค์กร วิวัฒนาการจากความร่วมมือมนุษย์-มนุษย์เป็นรูปแบบผสมมนุษย์-agent ที่ทำงานเป็นองค์กรขั้นสูงรวมเป็นหนึ่ง

ลอกหีบห่อวาทศิลป์ออก แก่นชัดเจน: การโยกย้ายมูลค่าเคลื่อนห่างจากความสามารถดิบของโมเดลไปยังชั้นที่จัดวงดนตรีความสามารถเป็นผลลัพธ์ นั่นคือชั้น agent

2. Daily Active Agents (DAA) — ตัวชี้วัดใหม่

หลี่เสนอ DAA เป็นทายาทยุค-agent ของ DAU เหตุผล: token วัดต้นทุน ไม่ใช่มูลค่า — ตัวชี้วัดอินพุต ไม่ใช่เอาต์พุต ในทางตรงข้าม agent ที่ใช้งานวัดความถี่ที่ซอฟต์แวร์อัตโนมัติทำงานที่มีประโยชน์ในนามของใครบางคน เขาคาดการณ์ว่า DAA ทั่วโลกในที่สุดอาจเกิน 10 พันล้าน

3. «ซอฟต์แวร์ใช้แล้วทิ้ง» — แอปพลิเคชันเป็นวัตถุที่ทิ้งได้

เส้นด้ายที่สาม: ในขณะที่ต้นทุนการสร้างโค้ดล่ม กำแพงการพัฒนาซอฟต์แวร์ก็ตกและแอปพลิเคชันใช้ครั้งเดียวกลายเป็นไปได้ ผู้ใช้สร้างซอฟต์แวร์ตามสั่งสำหรับงานเดียวและทิ้ง หลี่อ้างถึง Miaoda ของ Baidu ซึ่งเป็น agent การเขียนโค้ดที่รายงานว่าสร้างโค้ดของตัวเองประมาณ 90% เป็นตัวอย่างที่ใช้งานได้

สิ่งที่ Baidu ส่งมอบวันนี้จริงๆ

ผลิตภัณฑ์คืออะไรทำไมสำคัญ
DuMateAgent อเนกประสงค์ — ผลิตภัณฑ์ agent แนวนอนเรือธงของ Baiduยิงตรงไปยังการวางตำแหน่ง Operator/ChatGPT-as-agent ของ OpenAI
Miaoda (app + องค์กร)Agent เขียนโค้ดที่สร้างโค้ดของตัวเอง ~90%ทำให้ทฤษฎี «ซอฟต์แวร์ใช้แล้วทิ้ง» เป็นรูปธรรม
Baidu YiJing (อัปเดต)แพลตฟอร์มมัลติ-agent มนุษย์ดิจิทัลสำหรับการสตรีมสดและการสร้างวิดีโอแบบเรียลไทม์การเปิดตัวที่เกี่ยวข้องโดยตรงที่สุดกับครีเอเตอร์วิดีโอ AI
Famou Agent 2.0แพลตฟอร์ม agent ที่วิวัฒนาการเองความอิสระแบบเรียนรู้ต่อเนื่องคือเกม DAA ระยะยาว

ที่น่าสนใจสำหรับหัวข้อเราคือ YiJing เป็นแพลตฟอร์มมัลติ-agent มนุษย์ดิจิทัล — หมายความว่าระบบไม่ใช่โมเดลวิดีโอเดียวที่มีอินเทอร์เฟซแชทแปะอยู่ มันคือชั้นการจัดวงที่ประสาน agent เฉพาะทางหลายตัวสำหรับการสตรีมและการสร้างเรียลไทม์: agent หนึ่งสำหรับสคริปต์ หนึ่งสำหรับการนำเสนอและ lip sync หนึ่งสำหรับกล้องและการเลือกช็อต หนึ่งสำหรับปฏิกิริยาผู้ชม หนึ่งสำหรับตรรกะสินค้า/โปรโม โมเดลวิดีโออยู่ที่ไหนสักแห่งด้านล่าง ในฐานะส่วนประกอบที่เปลี่ยนได้

ทำไมตอนนี้ ไม่ใช่หกเดือนก่อน

  1. การล่มทางเศรษฐกิจของ Sora 2 โมเดลวิดีโอผู้บริโภคเรือธงของ OpenAI ปิดใน 84 วัน ชันสูตร
  2. การไต่ระดับทันทีของ HappyHorse 1.0 โมเดล audio-video รวมของ Alibaba คว้า Arena #1 ใน 48 ชั่วโมง รีวิว
  3. การบรรจบทางสถาปัตยกรรม Seedance 2.0, HappyHorse 1.0 และ Gemini Omni ที่รั่วทั้งหมดชี้ไปยังจุดหมายเดียวกัน
  4. การบีบราคา ราคา API วิดีโอระดับสูงจาก $0.50/วินาที (Veo 3.1) ไปยัง $0.05/วินาที (HappyHorse 1.0)

หลี่ไม่ได้ทำนายการเปลี่ยนแปลง เขาตั้งชื่อมัน

ยุค agent หมายถึงอะไรสำหรับวิดีโอ AI

1. คำถาม «ฉันควรใช้โมเดลไหน?» ตอนนี้ล้าสมัย

คำถามที่ถูกต้องคือ «สแต็ก agent ของฉันส่งงานไปยังโมเดลที่ดีที่สุดสำหรับแต่ละช็อตอย่างไร?» Veo 3.1 อาจดีที่สุดสำหรับการเคลื่อนไหวฟิสิกส์สูง HappyHorse 1.0 สำหรับคำพูดที่ซิงค์ Seedance 2.0 สำหรับลำดับมัลติช็อต Kling 3.0 สำหรับสุนทรียศาสตร์ที่มีสไตล์

2. คุณภาพเอาต์พุตหยุดอยู่กับความสามารถของโมเดล

มันกลายเป็นเรื่องของคุณภาพการแปลพรอมต์ การแยกย่อยช็อต การจัดการความต่อเนื่อง การตรวจสอบ sync เสียง-วิดีโอ — สิ่งที่โมเดลเองไม่ทำดี

3. หน่วยความแตกต่างเคลื่อนจาก «โมเดล» เป็น «เวิร์กโฟลว์»

ถ้าคุณเป็นเครื่องมือ คุณไม่แข่งบน «เราใช้ Veo 3.1» คุณแข่งบนสิ่งที่ agent ของคุณทำเหนือ Veo 3.1, Seedance 2.0, HappyHorse, Kling, Luma และ Runway รวมกัน ทฤษฎีกลางของ บทสรุปกลางปี 2026

4. DAA ปรับกรอบตัวชี้วัดความสำเร็จสำหรับเครื่องมือครีเอเตอร์

เครื่องมือที่ปรับให้เหมาะกับ DAU ผลักผู้ใช้ไปเล่นไปเล่นมา เครื่องมือที่ปรับให้เหมาะกับ DAA ผลักไปสู่การมอบหมาย

5. «Agent ใช้แล้วทิ้ง» กลายเป็นหน่วยของงานสร้างสรรค์

แทนที่จะเป็นเครื่องมือถาวรพร้อมการตั้งค่าที่คงอยู่ แต่ละโปรเจกต์มี agent ที่กำหนดเอง — ประกอบเพื่อบรีฟ ปรับให้เหมาะกับข้อจำกัด สลายเมื่อส่งมอบ

นี่หมายถึงอะไรสำหรับคุณโดยเฉพาะ

หากคุณเป็นครีเอเตอร์รายบุคคล

หยุดทำ benchmark โมเดล เริ่ม benchmark เวิร์กโฟลว์ คำถามที่มีประโยชน์ที่สุดในอีก 60 วันข้างหน้าไม่ใช่ «HappyHorse ดีกว่า Veo สำหรับงานของฉันไหม?» — แต่เป็น «เครื่องมือปัจจุบันของฉันส่งระหว่างโมเดลอย่างชาญฉลาดหรือฉันส่งเอง?»

หากคุณกำลังสร้างผลิตภัณฑ์วิดีโอ

ปฏิบัติต่อการรวมโมเดลของคุณเป็นการกำหนดค่า ไม่ใช่โค้ด จังหวะการเปิดตัวรับประกันว่า hardcoding ไปยังโมเดลเฉพาะเป็นระเบิดเวลาหกเดือน

หากคุณบริหารทีมสร้างสรรค์ระดับองค์กร

«รูปแบบผสมมนุษย์-agent» ของหลี่ไม่ใช่สโลแกน เป็นเป้าหมายปฏิบัติการที่เป็นรูปธรรม

สามสัญญาณที่ต้องจับตาจากตรงนี้

สัญญาณ 1: Google I/O 2026 (19–20 พฤษภาคม)

หาก Gemini Omni เปิดตัวเป็นโมเดล omni-modality รวมพร้อมอินเทอร์เฟซ agent-native Google รับรองทฤษฎีเดียวกันโดยปริยาย

สัญญาณ 2: การไต่สวน Hailuo/MiniMax (29 พฤษภาคม)

Disney, Warner Bros. และ NBCUniversal ต่อ MiniMax ต่อหน้าผู้พิพากษา Blumenfeld วันที่ 29 พฤษภาคม

สัญญาณ 3: การยอมรับ DAA โดยแพลตฟอร์มใหญ่

จับตาว่า OpenAI, Anthropic, Meta หรือ Google จะรับ DAA (หรือตัวชี้วัดความอิสระเทียบเท่า) ในการเปิดเผยรายไตรมาสครั้งต่อไปหรือไม่

บทสรุป

สิ่งที่มีประโยชน์ที่สุดเกี่ยวกับคีย์โน้ตของหลี่วันที่ 14 พฤษภาคมไม่ใช่ว่าเขาประกาศผลิตภัณฑ์ใหม่ — DuMate, Miaoda และ YiJing เป็นการตอบสนองในรูปแบบ Baidu ต่อรูปแบบที่มีอยู่แล้ว สิ่งที่มีประโยชน์ที่สุดคือเขาให้ชื่อและตัวชี้วัดแก่การเปลี่ยนแปลงที่กำลังเกิดขึ้นเงียบๆ ในตลาดวิดีโอ AI มาสี่เดือน

ชั้นโมเดลยังคงเคลื่อนไหว มันจะเคลื่อนไหวต่อไป Gemini Omni สัปดาห์หน้า Seedance 3 ใน Q3 ไม่ว่าอะไรที่ Anthropic และ Meta ส่งภายในสิ้นปี ไม่มีอะไรจะนิ่ง นั่นแหละคือประเด็น เมื่อชั้นโมเดลอยู่ในการเคลื่อนไหวถาวร สถานที่เดียวที่ทนทานสำหรับการสร้างคือสูงขึ้นไปหนึ่งชั้น — ที่ชั้น agent ที่เวิร์กโฟลว์ทบต้นและการจัดวงดีขึ้นด้วยการใช้งาน

สำหรับวิดีโอ AI นี่ไม่ใช่การคาดเดา เราดำเนินงานบนทฤษฎีนี้ตั้งแต่ต้นปี 2026 ซึ่งเป็นเหตุผลที่ Genra ถูกสร้างเป็น agent ครบวงจรบน Veo + Seedance แทนที่จะเป็น frontend ของโมเดลเดียว งานของ agent คือส่งไปยังโมเดลที่ถูกต้อง จัดการความต่อเนื่องข้ามช็อต ซิงค์เสียงและการเคลื่อนไหว และส่งมอบการตัดต่อสุดท้ายโดยไม่ทำให้คุณเป็นเครื่องยนต์ routing คีย์โน้ตของหลี่คือการรับรองสาธารณะที่ชัดเจนที่สุดของตัวเลือกสถาปัตยกรรมนี้ที่เราได้รับในปีนี้

ห้าวันถึง Google I/O สิบห้าถึงการไต่สวน MiniMax สองสัปดาห์ข้างหน้าจะบอกคุณว่าอุตสาหกรรมเห็นด้วยกับสิ่งที่หลี่พูดในปักกิ่งวันนี้แค่ไหน

FAQ

Baidu Create 2026 คืออะไร?

การประชุมนักพัฒนา AI ประจำปีของ Baidu วันที่ 13–14 พฤษภาคม 2026 ในปักกิ่ง CEO โรบิน หลี่ ใช้คีย์โน้ตวันที่ 14 ประกาศยุค agent และเสนอ DAA เป็นตัวชี้วัดใหม่

โรบิน หลี่ ประกาศอะไรกันแน่?

สี่ผลิตภัณฑ์: DuMate (agent ทั่วไป), Miaoda app + องค์กร (~90% โค้ดเอง), Baidu YiJing อัปเดต และ Famou Agent 2.0 รวมถึงตัวชี้วัด DAA และทฤษฎีวิวัฒนาการ AI สามชั้น

Daily Active Agents (DAA) คืออะไร?

เทียบเท่ายุค-agent ของ DAU วัด agent อิสระทำงานที่มีประโยชน์ต่อวันกี่ตัว หลี่คาดการณ์ทั่วโลก > 10 พันล้าน

ทำไมสำคัญเฉพาะกับวิดีโอ AI?

วิดีโอ AI พิสูจน์ทฤษฎีเชิงประจักษ์ในสี่เดือน

«ซอฟต์แวร์ใช้แล้วทิ้ง» ประยุกต์กับวิดีโออย่างไร?

สำหรับวิดีโอ: ชุด agent เฉพาะโปรเจกต์แทนเครื่องมือถาวร

ฉันควรทำอย่างไรในฐานะครีเอเตอร์?

หยุด benchmark โมเดลแยก เริ่ม benchmark เวิร์กโฟลว์


เกี่ยวกับผู้เขียน
Chris Sherman เขียนเรื่องเทคโนโลยีวิดีโอ AI และเวิร์กโฟลว์การผลิตเชิงสร้างสรรค์ ติดตาม @GenraAI สำหรับรายงานสด Google I/O 2026 (19–20 พฤษภาคม) และการไต่สวน MiniMax (29 พฤษภาคม)