โรบิน หลี่ ประกาศจบยุคโมเดล — วิดีโอ AI พิสูจน์มาเงียบๆ สี่เดือน

CEO ของ Baidu เปิด Create 2026 ที่ปักกิ่งวันนี้โดยปลดคำถาม «โมเดลไหนดีที่สุด?» ออกจากคำถามสำคัญ สำหรับวิดีโอ AI นี่เพียงทำให้ฉันทามติอายุสี่เดือนเป็นทางการ

ประโยคที่เปลี่ยนกรอบอุตสาหกรรม

โรบิน หลี่ ผู้ร่วมก่อตั้งและ CEO ของ Baidu ขึ้นเวที Baidu Create 2026 ในปักกิ่งเมื่อวันที่ 14 พฤษภาคม 2026 และทิ้งประโยคที่จะถูกอ้างอิงตลอดปีที่เหลือ: อุตสาหกรรม AI เขากล่าว ได้ผ่าน «การแข่งโมเดล» และเข้าสู่ «ยุค agent» แล้ว เขาควบไปกับข้อเสนอที่เป็นรูปธรรม — ตัวชี้วัดใหม่ควรเป็น Daily Active Agents (DAA) เทียบเท่า DAU ของอินเทอร์เน็ตมือถือในยุค agent โดยคาดการณ์ DAA ทั่วโลกในที่สุดเกิน 10 พันล้าน

หากคุณติดตามตลาดวิดีโอ AI ในสี่เดือนที่ผ่านมา ไม่มีอะไรในนี้เป็นคำทำนาย เป็นคำอธิบาย

Sora 2 ล่มใน 84 วันภายใต้น้ำหนักของกลยุทธ์โมเดลเดี่ยว HappyHorse 1.0 คว้า Arena #1 ใน 48 ชั่วโมงและบีบช่องว่างทางเทคนิคที่มีความหมายระหว่างโมเดลวิดีโอชั้นนำให้เหลือเกือบศูนย์ทันที Seedance 2.0, Veo 3.1 และ Gemini Omni ที่รั่วล้วนรวมจุดสิ้นสุดทางสถาปัตยกรรมเดียวกัน คำถาม «โมเดลไหนดีที่สุด?» หยุดน่าสนใจในช่วงระหว่างกุมภาพันธ์ถึงเมษายน วันนี้ โรบิน หลี่ กลายเป็น CEO แพลตฟอร์มใหญ่คนแรกที่พูดออกมาเปิดเผย

บทความนี้เกี่ยวกับสิ่งที่หมายความเฉพาะกับวิดีโอ AI — สิ่งที่หลี่พูด สิ่งที่ Baidu ส่งมอบจริงวันนี้ และเหตุใดคีย์โน้ตเกี่ยวกับชั้นแอปพลิเคชันในปักกิ่งจึงกลายเป็นคำอธิบายภูมิทัศน์การแข่งขันที่แม่นยำที่สุดสำหรับครึ่งหลังของ 2026

สิ่งที่หลี่พูดจริงๆ

1. «ทฤษฎีวิวัฒนาการ AI» — การเปลี่ยนแปลงสามชั้น

หลี่นำเสนอสิ่งที่เขาเรียกว่า «ทฤษฎีวิวัฒนาการ AI»: การเปลี่ยนแปลงพร้อมกันในสามชั้น Agent วิวัฒนาการจากผู้ตอบสนองเชิงรับเป็นผู้ดำเนินการอัตโนมัติที่เรียนรู้จากสภาพแวดล้อมอย่างต่อเนื่อง บุคคล วิวัฒนาการจากผู้ใช้ทั่วไปเป็น «บุคคลขั้นสูง» ที่อยู่ร่วมกับ AI เพื่อทวีผลผลิตของตน องค์กร วิวัฒนาการจากความร่วมมือมนุษย์-มนุษย์เป็นรูปแบบผสมมนุษย์-agent ที่ทำงานเป็นองค์กรขั้นสูงรวมเป็นหนึ่ง

ลอกหีบห่อวาทศิลป์ออก แก่นชัดเจน: การโยกย้ายมูลค่าเคลื่อนห่างจากความสามารถดิบของโมเดลไปยังชั้นที่จัดวงดนตรีความสามารถเป็นผลลัพธ์ นั่นคือชั้น agent

2. Daily Active Agents (DAA) — ตัวชี้วัดใหม่

หลี่เสนอ DAA เป็นทายาทยุค-agent ของ DAU เหตุผล: token วัดต้นทุน ไม่ใช่มูลค่า — ตัวชี้วัดอินพุต ไม่ใช่เอาต์พุต ในทางตรงข้าม agent ที่ใช้งานวัดความถี่ที่ซอฟต์แวร์อัตโนมัติทำงานที่มีประโยชน์ในนามของใครบางคน เขาคาดการณ์ว่า DAA ทั่วโลกในที่สุดอาจเกิน 10 พันล้าน

3. «ซอฟต์แวร์ใช้แล้วทิ้ง» — แอปพลิเคชันเป็นวัตถุที่ทิ้งได้

เส้นด้ายที่สาม: ในขณะที่ต้นทุนการสร้างโค้ดล่ม กำแพงการพัฒนาซอฟต์แวร์ก็ตกและแอปพลิเคชันใช้ครั้งเดียวกลายเป็นไปได้ ผู้ใช้สร้างซอฟต์แวร์ตามสั่งสำหรับงานเดียวและทิ้ง หลี่อ้างถึง Miaoda ของ Baidu ซึ่งเป็น agent การเขียนโค้ดที่รายงานว่าสร้างโค้ดของตัวเองประมาณ 90% เป็นตัวอย่างที่ใช้งานได้

สิ่งที่ Baidu ส่งมอบวันนี้จริงๆ

ผลิตภัณฑ์	คืออะไร	ทำไมสำคัญ
DuMate	Agent อเนกประสงค์ — ผลิตภัณฑ์ agent แนวนอนเรือธงของ Baidu	ยิงตรงไปยังการวางตำแหน่ง Operator/ChatGPT-as-agent ของ OpenAI
Miaoda (app + องค์กร)	Agent เขียนโค้ดที่สร้างโค้ดของตัวเอง ~90%	ทำให้ทฤษฎี «ซอฟต์แวร์ใช้แล้วทิ้ง» เป็นรูปธรรม
Baidu YiJing (อัปเดต)	แพลตฟอร์มมัลติ-agent มนุษย์ดิจิทัลสำหรับการสตรีมสดและการสร้างวิดีโอแบบเรียลไทม์	การเปิดตัวที่เกี่ยวข้องโดยตรงที่สุดกับครีเอเตอร์วิดีโอ AI
Famou Agent 2.0	แพลตฟอร์ม agent ที่วิวัฒนาการเอง	ความอิสระแบบเรียนรู้ต่อเนื่องคือเกม DAA ระยะยาว

ที่น่าสนใจสำหรับหัวข้อเราคือ YiJing เป็นแพลตฟอร์มมัลติ-agent มนุษย์ดิจิทัล — หมายความว่าระบบไม่ใช่โมเดลวิดีโอเดียวที่มีอินเทอร์เฟซแชทแปะอยู่ มันคือชั้นการจัดวงที่ประสาน agent เฉพาะทางหลายตัวสำหรับการสตรีมและการสร้างเรียลไทม์: agent หนึ่งสำหรับสคริปต์ หนึ่งสำหรับการนำเสนอและ lip sync หนึ่งสำหรับกล้องและการเลือกช็อต หนึ่งสำหรับปฏิกิริยาผู้ชม หนึ่งสำหรับตรรกะสินค้า/โปรโม โมเดลวิดีโออยู่ที่ไหนสักแห่งด้านล่าง ในฐานะส่วนประกอบที่เปลี่ยนได้

ทำไมตอนนี้ ไม่ใช่หกเดือนก่อน

การล่มทางเศรษฐกิจของ Sora 2 โมเดลวิดีโอผู้บริโภคเรือธงของ OpenAI ปิดใน 84 วัน ชันสูตร
การไต่ระดับทันทีของ HappyHorse 1.0 โมเดล audio-video รวมของ Alibaba คว้า Arena #1 ใน 48 ชั่วโมง รีวิว
การบรรจบทางสถาปัตยกรรม Seedance 2.0, HappyHorse 1.0 และ Gemini Omni ที่รั่วทั้งหมดชี้ไปยังจุดหมายเดียวกัน
การบีบราคา ราคา API วิดีโอระดับสูงจาก $0.50/วินาที (Veo 3.1) ไปยัง $0.05/วินาที (HappyHorse 1.0)

หลี่ไม่ได้ทำนายการเปลี่ยนแปลง เขาตั้งชื่อมัน

ยุค agent หมายถึงอะไรสำหรับวิดีโอ AI

1. คำถาม «ฉันควรใช้โมเดลไหน?» ตอนนี้ล้าสมัย

คำถามที่ถูกต้องคือ «สแต็ก agent ของฉันส่งงานไปยังโมเดลที่ดีที่สุดสำหรับแต่ละช็อตอย่างไร?» Veo 3.1 อาจดีที่สุดสำหรับการเคลื่อนไหวฟิสิกส์สูง HappyHorse 1.0 สำหรับคำพูดที่ซิงค์ Seedance 2.0 สำหรับลำดับมัลติช็อต Kling 3.0 สำหรับสุนทรียศาสตร์ที่มีสไตล์

2. คุณภาพเอาต์พุตหยุดอยู่กับความสามารถของโมเดล

มันกลายเป็นเรื่องของคุณภาพการแปลพรอมต์ การแยกย่อยช็อต การจัดการความต่อเนื่อง การตรวจสอบ sync เสียง-วิดีโอ — สิ่งที่โมเดลเองไม่ทำดี

3. หน่วยความแตกต่างเคลื่อนจาก «โมเดล» เป็น «เวิร์กโฟลว์»

ถ้าคุณเป็นเครื่องมือ คุณไม่แข่งบน «เราใช้ Veo 3.1» คุณแข่งบนสิ่งที่ agent ของคุณทำเหนือ Veo 3.1, Seedance 2.0, HappyHorse, Kling, Luma และ Runway รวมกัน ทฤษฎีกลางของ บทสรุปกลางปี 2026

4. DAA ปรับกรอบตัวชี้วัดความสำเร็จสำหรับเครื่องมือครีเอเตอร์

เครื่องมือที่ปรับให้เหมาะกับ DAU ผลักผู้ใช้ไปเล่นไปเล่นมา เครื่องมือที่ปรับให้เหมาะกับ DAA ผลักไปสู่การมอบหมาย

5. «Agent ใช้แล้วทิ้ง» กลายเป็นหน่วยของงานสร้างสรรค์

แทนที่จะเป็นเครื่องมือถาวรพร้อมการตั้งค่าที่คงอยู่ แต่ละโปรเจกต์มี agent ที่กำหนดเอง — ประกอบเพื่อบรีฟ ปรับให้เหมาะกับข้อจำกัด สลายเมื่อส่งมอบ

นี่หมายถึงอะไรสำหรับคุณโดยเฉพาะ

หากคุณเป็นครีเอเตอร์รายบุคคล

หยุดทำ benchmark โมเดล เริ่ม benchmark เวิร์กโฟลว์ คำถามที่มีประโยชน์ที่สุดในอีก 60 วันข้างหน้าไม่ใช่ «HappyHorse ดีกว่า Veo สำหรับงานของฉันไหม?» — แต่เป็น «เครื่องมือปัจจุบันของฉันส่งระหว่างโมเดลอย่างชาญฉลาดหรือฉันส่งเอง?»

หากคุณกำลังสร้างผลิตภัณฑ์วิดีโอ

ปฏิบัติต่อการรวมโมเดลของคุณเป็นการกำหนดค่า ไม่ใช่โค้ด จังหวะการเปิดตัวรับประกันว่า hardcoding ไปยังโมเดลเฉพาะเป็นระเบิดเวลาหกเดือน

หากคุณบริหารทีมสร้างสรรค์ระดับองค์กร

«รูปแบบผสมมนุษย์-agent» ของหลี่ไม่ใช่สโลแกน เป็นเป้าหมายปฏิบัติการที่เป็นรูปธรรม

สามสัญญาณที่ต้องจับตาจากตรงนี้

สัญญาณ 1: Google I/O 2026 (19–20 พฤษภาคม)

หาก Gemini Omni เปิดตัวเป็นโมเดล omni-modality รวมพร้อมอินเทอร์เฟซ agent-native Google รับรองทฤษฎีเดียวกันโดยปริยาย

สัญญาณ 2: การไต่สวน Hailuo/MiniMax (29 พฤษภาคม)

Disney, Warner Bros. และ NBCUniversal ต่อ MiniMax ต่อหน้าผู้พิพากษา Blumenfeld วันที่ 29 พฤษภาคม

สัญญาณ 3: การยอมรับ DAA โดยแพลตฟอร์มใหญ่

จับตาว่า OpenAI, Anthropic, Meta หรือ Google จะรับ DAA (หรือตัวชี้วัดความอิสระเทียบเท่า) ในการเปิดเผยรายไตรมาสครั้งต่อไปหรือไม่

บทสรุป

สิ่งที่มีประโยชน์ที่สุดเกี่ยวกับคีย์โน้ตของหลี่วันที่ 14 พฤษภาคมไม่ใช่ว่าเขาประกาศผลิตภัณฑ์ใหม่ — DuMate, Miaoda และ YiJing เป็นการตอบสนองในรูปแบบ Baidu ต่อรูปแบบที่มีอยู่แล้ว สิ่งที่มีประโยชน์ที่สุดคือเขาให้ชื่อและตัวชี้วัดแก่การเปลี่ยนแปลงที่กำลังเกิดขึ้นเงียบๆ ในตลาดวิดีโอ AI มาสี่เดือน

ชั้นโมเดลยังคงเคลื่อนไหว มันจะเคลื่อนไหวต่อไป Gemini Omni สัปดาห์หน้า Seedance 3 ใน Q3 ไม่ว่าอะไรที่ Anthropic และ Meta ส่งภายในสิ้นปี ไม่มีอะไรจะนิ่ง นั่นแหละคือประเด็น เมื่อชั้นโมเดลอยู่ในการเคลื่อนไหวถาวร สถานที่เดียวที่ทนทานสำหรับการสร้างคือสูงขึ้นไปหนึ่งชั้น — ที่ชั้น agent ที่เวิร์กโฟลว์ทบต้นและการจัดวงดีขึ้นด้วยการใช้งาน

สำหรับวิดีโอ AI นี่ไม่ใช่การคาดเดา เราดำเนินงานบนทฤษฎีนี้ตั้งแต่ต้นปี 2026 ซึ่งเป็นเหตุผลที่ Genra ถูกสร้างเป็น agent ครบวงจรบน Veo + Seedance แทนที่จะเป็น frontend ของโมเดลเดียว งานของ agent คือส่งไปยังโมเดลที่ถูกต้อง จัดการความต่อเนื่องข้ามช็อต ซิงค์เสียงและการเคลื่อนไหว และส่งมอบการตัดต่อสุดท้ายโดยไม่ทำให้คุณเป็นเครื่องยนต์ routing คีย์โน้ตของหลี่คือการรับรองสาธารณะที่ชัดเจนที่สุดของตัวเลือกสถาปัตยกรรมนี้ที่เราได้รับในปีนี้

ห้าวันถึง Google I/O สิบห้าถึงการไต่สวน MiniMax สองสัปดาห์ข้างหน้าจะบอกคุณว่าอุตสาหกรรมเห็นด้วยกับสิ่งที่หลี่พูดในปักกิ่งวันนี้แค่ไหน

FAQ

Baidu Create 2026 คืออะไร?

การประชุมนักพัฒนา AI ประจำปีของ Baidu วันที่ 13–14 พฤษภาคม 2026 ในปักกิ่ง CEO โรบิน หลี่ ใช้คีย์โน้ตวันที่ 14 ประกาศยุค agent และเสนอ DAA เป็นตัวชี้วัดใหม่

โรบิน หลี่ ประกาศอะไรกันแน่?

สี่ผลิตภัณฑ์: DuMate (agent ทั่วไป), Miaoda app + องค์กร (~90% โค้ดเอง), Baidu YiJing อัปเดต และ Famou Agent 2.0 รวมถึงตัวชี้วัด DAA และทฤษฎีวิวัฒนาการ AI สามชั้น

Daily Active Agents (DAA) คืออะไร?

เทียบเท่ายุค-agent ของ DAU วัด agent อิสระทำงานที่มีประโยชน์ต่อวันกี่ตัว หลี่คาดการณ์ทั่วโลก > 10 พันล้าน

ทำไมสำคัญเฉพาะกับวิดีโอ AI?

วิดีโอ AI พิสูจน์ทฤษฎีเชิงประจักษ์ในสี่เดือน

«ซอฟต์แวร์ใช้แล้วทิ้ง» ประยุกต์กับวิดีโออย่างไร?

สำหรับวิดีโอ: ชุด agent เฉพาะโปรเจกต์แทนเครื่องมือถาวร

ฉันควรทำอย่างไรในฐานะครีเอเตอร์?

หยุด benchmark โมเดลแยก เริ่ม benchmark เวิร์กโฟลว์

เกี่ยวกับผู้เขียน
Chris Sherman เขียนเรื่องเทคโนโลยีวิดีโอ AI และเวิร์กโฟลว์การผลิตเชิงสร้างสรรค์ ติดตาม @GenraAI สำหรับรายงานสด Google I/O 2026 (19–20 พฤษภาคม) และการไต่สวน MiniMax (29 พฤษภาคม)