โรบิน หลี่ ประกาศจบยุคโมเดล — วิดีโอ AI พิสูจน์มาเงียบๆ สี่เดือน
· Chris ShermanCEO ของ Baidu เปิด Create 2026 ที่ปักกิ่งวันนี้โดยปลดคำถาม «โมเดลไหนดีที่สุด?» ออกจากคำถามสำคัญ สำหรับวิดีโอ AI นี่เพียงทำให้ฉันทามติอายุสี่เดือนเป็นทางการ
ประโยคที่เปลี่ยนกรอบอุตสาหกรรม
โรบิน หลี่ ผู้ร่วมก่อตั้งและ CEO ของ Baidu ขึ้นเวที Baidu Create 2026 ในปักกิ่งเมื่อวันที่ 14 พฤษภาคม 2026 และทิ้งประโยคที่จะถูกอ้างอิงตลอดปีที่เหลือ: อุตสาหกรรม AI เขากล่าว ได้ผ่าน «การแข่งโมเดล» และเข้าสู่ «ยุค agent» แล้ว เขาควบไปกับข้อเสนอที่เป็นรูปธรรม — ตัวชี้วัดใหม่ควรเป็น Daily Active Agents (DAA) เทียบเท่า DAU ของอินเทอร์เน็ตมือถือในยุค agent โดยคาดการณ์ DAA ทั่วโลกในที่สุดเกิน 10 พันล้าน
หากคุณติดตามตลาดวิดีโอ AI ในสี่เดือนที่ผ่านมา ไม่มีอะไรในนี้เป็นคำทำนาย เป็นคำอธิบาย
Sora 2 ล่มใน 84 วันภายใต้น้ำหนักของกลยุทธ์โมเดลเดี่ยว HappyHorse 1.0 คว้า Arena #1 ใน 48 ชั่วโมงและบีบช่องว่างทางเทคนิคที่มีความหมายระหว่างโมเดลวิดีโอชั้นนำให้เหลือเกือบศูนย์ทันที Seedance 2.0, Veo 3.1 และ Gemini Omni ที่รั่วล้วนรวมจุดสิ้นสุดทางสถาปัตยกรรมเดียวกัน คำถาม «โมเดลไหนดีที่สุด?» หยุดน่าสนใจในช่วงระหว่างกุมภาพันธ์ถึงเมษายน วันนี้ โรบิน หลี่ กลายเป็น CEO แพลตฟอร์มใหญ่คนแรกที่พูดออกมาเปิดเผย
บทความนี้เกี่ยวกับสิ่งที่หมายความเฉพาะกับวิดีโอ AI — สิ่งที่หลี่พูด สิ่งที่ Baidu ส่งมอบจริงวันนี้ และเหตุใดคีย์โน้ตเกี่ยวกับชั้นแอปพลิเคชันในปักกิ่งจึงกลายเป็นคำอธิบายภูมิทัศน์การแข่งขันที่แม่นยำที่สุดสำหรับครึ่งหลังของ 2026
สิ่งที่หลี่พูดจริงๆ
1. «ทฤษฎีวิวัฒนาการ AI» — การเปลี่ยนแปลงสามชั้น
หลี่นำเสนอสิ่งที่เขาเรียกว่า «ทฤษฎีวิวัฒนาการ AI»: การเปลี่ยนแปลงพร้อมกันในสามชั้น Agent วิวัฒนาการจากผู้ตอบสนองเชิงรับเป็นผู้ดำเนินการอัตโนมัติที่เรียนรู้จากสภาพแวดล้อมอย่างต่อเนื่อง บุคคล วิวัฒนาการจากผู้ใช้ทั่วไปเป็น «บุคคลขั้นสูง» ที่อยู่ร่วมกับ AI เพื่อทวีผลผลิตของตน องค์กร วิวัฒนาการจากความร่วมมือมนุษย์-มนุษย์เป็นรูปแบบผสมมนุษย์-agent ที่ทำงานเป็นองค์กรขั้นสูงรวมเป็นหนึ่ง
ลอกหีบห่อวาทศิลป์ออก แก่นชัดเจน: การโยกย้ายมูลค่าเคลื่อนห่างจากความสามารถดิบของโมเดลไปยังชั้นที่จัดวงดนตรีความสามารถเป็นผลลัพธ์ นั่นคือชั้น agent
2. Daily Active Agents (DAA) — ตัวชี้วัดใหม่
หลี่เสนอ DAA เป็นทายาทยุค-agent ของ DAU เหตุผล: token วัดต้นทุน ไม่ใช่มูลค่า — ตัวชี้วัดอินพุต ไม่ใช่เอาต์พุต ในทางตรงข้าม agent ที่ใช้งานวัดความถี่ที่ซอฟต์แวร์อัตโนมัติทำงานที่มีประโยชน์ในนามของใครบางคน เขาคาดการณ์ว่า DAA ทั่วโลกในที่สุดอาจเกิน 10 พันล้าน
3. «ซอฟต์แวร์ใช้แล้วทิ้ง» — แอปพลิเคชันเป็นวัตถุที่ทิ้งได้
เส้นด้ายที่สาม: ในขณะที่ต้นทุนการสร้างโค้ดล่ม กำแพงการพัฒนาซอฟต์แวร์ก็ตกและแอปพลิเคชันใช้ครั้งเดียวกลายเป็นไปได้ ผู้ใช้สร้างซอฟต์แวร์ตามสั่งสำหรับงานเดียวและทิ้ง หลี่อ้างถึง Miaoda ของ Baidu ซึ่งเป็น agent การเขียนโค้ดที่รายงานว่าสร้างโค้ดของตัวเองประมาณ 90% เป็นตัวอย่างที่ใช้งานได้
สิ่งที่ Baidu ส่งมอบวันนี้จริงๆ
| ผลิตภัณฑ์ | คืออะไร | ทำไมสำคัญ |
|---|---|---|
| DuMate | Agent อเนกประสงค์ — ผลิตภัณฑ์ agent แนวนอนเรือธงของ Baidu | ยิงตรงไปยังการวางตำแหน่ง Operator/ChatGPT-as-agent ของ OpenAI |
| Miaoda (app + องค์กร) | Agent เขียนโค้ดที่สร้างโค้ดของตัวเอง ~90% | ทำให้ทฤษฎี «ซอฟต์แวร์ใช้แล้วทิ้ง» เป็นรูปธรรม |
| Baidu YiJing (อัปเดต) | แพลตฟอร์มมัลติ-agent มนุษย์ดิจิทัลสำหรับการสตรีมสดและการสร้างวิดีโอแบบเรียลไทม์ | การเปิดตัวที่เกี่ยวข้องโดยตรงที่สุดกับครีเอเตอร์วิดีโอ AI |
| Famou Agent 2.0 | แพลตฟอร์ม agent ที่วิวัฒนาการเอง | ความอิสระแบบเรียนรู้ต่อเนื่องคือเกม DAA ระยะยาว |
ที่น่าสนใจสำหรับหัวข้อเราคือ YiJing เป็นแพลตฟอร์มมัลติ-agent มนุษย์ดิจิทัล — หมายความว่าระบบไม่ใช่โมเดลวิดีโอเดียวที่มีอินเทอร์เฟซแชทแปะอยู่ มันคือชั้นการจัดวงที่ประสาน agent เฉพาะทางหลายตัวสำหรับการสตรีมและการสร้างเรียลไทม์: agent หนึ่งสำหรับสคริปต์ หนึ่งสำหรับการนำเสนอและ lip sync หนึ่งสำหรับกล้องและการเลือกช็อต หนึ่งสำหรับปฏิกิริยาผู้ชม หนึ่งสำหรับตรรกะสินค้า/โปรโม โมเดลวิดีโออยู่ที่ไหนสักแห่งด้านล่าง ในฐานะส่วนประกอบที่เปลี่ยนได้
ทำไมตอนนี้ ไม่ใช่หกเดือนก่อน
- การล่มทางเศรษฐกิจของ Sora 2 โมเดลวิดีโอผู้บริโภคเรือธงของ OpenAI ปิดใน 84 วัน ชันสูตร
- การไต่ระดับทันทีของ HappyHorse 1.0 โมเดล audio-video รวมของ Alibaba คว้า Arena #1 ใน 48 ชั่วโมง รีวิว
- การบรรจบทางสถาปัตยกรรม Seedance 2.0, HappyHorse 1.0 และ Gemini Omni ที่รั่วทั้งหมดชี้ไปยังจุดหมายเดียวกัน
- การบีบราคา ราคา API วิดีโอระดับสูงจาก $0.50/วินาที (Veo 3.1) ไปยัง $0.05/วินาที (HappyHorse 1.0)
หลี่ไม่ได้ทำนายการเปลี่ยนแปลง เขาตั้งชื่อมัน
ยุค agent หมายถึงอะไรสำหรับวิดีโอ AI
1. คำถาม «ฉันควรใช้โมเดลไหน?» ตอนนี้ล้าสมัย
คำถามที่ถูกต้องคือ «สแต็ก agent ของฉันส่งงานไปยังโมเดลที่ดีที่สุดสำหรับแต่ละช็อตอย่างไร?» Veo 3.1 อาจดีที่สุดสำหรับการเคลื่อนไหวฟิสิกส์สูง HappyHorse 1.0 สำหรับคำพูดที่ซิงค์ Seedance 2.0 สำหรับลำดับมัลติช็อต Kling 3.0 สำหรับสุนทรียศาสตร์ที่มีสไตล์
2. คุณภาพเอาต์พุตหยุดอยู่กับความสามารถของโมเดล
มันกลายเป็นเรื่องของคุณภาพการแปลพรอมต์ การแยกย่อยช็อต การจัดการความต่อเนื่อง การตรวจสอบ sync เสียง-วิดีโอ — สิ่งที่โมเดลเองไม่ทำดี
3. หน่วยความแตกต่างเคลื่อนจาก «โมเดล» เป็น «เวิร์กโฟลว์»
ถ้าคุณเป็นเครื่องมือ คุณไม่แข่งบน «เราใช้ Veo 3.1» คุณแข่งบนสิ่งที่ agent ของคุณทำเหนือ Veo 3.1, Seedance 2.0, HappyHorse, Kling, Luma และ Runway รวมกัน ทฤษฎีกลางของ บทสรุปกลางปี 2026
4. DAA ปรับกรอบตัวชี้วัดความสำเร็จสำหรับเครื่องมือครีเอเตอร์
เครื่องมือที่ปรับให้เหมาะกับ DAU ผลักผู้ใช้ไปเล่นไปเล่นมา เครื่องมือที่ปรับให้เหมาะกับ DAA ผลักไปสู่การมอบหมาย
5. «Agent ใช้แล้วทิ้ง» กลายเป็นหน่วยของงานสร้างสรรค์
แทนที่จะเป็นเครื่องมือถาวรพร้อมการตั้งค่าที่คงอยู่ แต่ละโปรเจกต์มี agent ที่กำหนดเอง — ประกอบเพื่อบรีฟ ปรับให้เหมาะกับข้อจำกัด สลายเมื่อส่งมอบ
นี่หมายถึงอะไรสำหรับคุณโดยเฉพาะ
หากคุณเป็นครีเอเตอร์รายบุคคล
หยุดทำ benchmark โมเดล เริ่ม benchmark เวิร์กโฟลว์ คำถามที่มีประโยชน์ที่สุดในอีก 60 วันข้างหน้าไม่ใช่ «HappyHorse ดีกว่า Veo สำหรับงานของฉันไหม?» — แต่เป็น «เครื่องมือปัจจุบันของฉันส่งระหว่างโมเดลอย่างชาญฉลาดหรือฉันส่งเอง?»
หากคุณกำลังสร้างผลิตภัณฑ์วิดีโอ
ปฏิบัติต่อการรวมโมเดลของคุณเป็นการกำหนดค่า ไม่ใช่โค้ด จังหวะการเปิดตัวรับประกันว่า hardcoding ไปยังโมเดลเฉพาะเป็นระเบิดเวลาหกเดือน
หากคุณบริหารทีมสร้างสรรค์ระดับองค์กร
«รูปแบบผสมมนุษย์-agent» ของหลี่ไม่ใช่สโลแกน เป็นเป้าหมายปฏิบัติการที่เป็นรูปธรรม
สามสัญญาณที่ต้องจับตาจากตรงนี้
สัญญาณ 1: Google I/O 2026 (19–20 พฤษภาคม)
หาก Gemini Omni เปิดตัวเป็นโมเดล omni-modality รวมพร้อมอินเทอร์เฟซ agent-native Google รับรองทฤษฎีเดียวกันโดยปริยาย
สัญญาณ 2: การไต่สวน Hailuo/MiniMax (29 พฤษภาคม)
Disney, Warner Bros. และ NBCUniversal ต่อ MiniMax ต่อหน้าผู้พิพากษา Blumenfeld วันที่ 29 พฤษภาคม
สัญญาณ 3: การยอมรับ DAA โดยแพลตฟอร์มใหญ่
จับตาว่า OpenAI, Anthropic, Meta หรือ Google จะรับ DAA (หรือตัวชี้วัดความอิสระเทียบเท่า) ในการเปิดเผยรายไตรมาสครั้งต่อไปหรือไม่
บทสรุป
สิ่งที่มีประโยชน์ที่สุดเกี่ยวกับคีย์โน้ตของหลี่วันที่ 14 พฤษภาคมไม่ใช่ว่าเขาประกาศผลิตภัณฑ์ใหม่ — DuMate, Miaoda และ YiJing เป็นการตอบสนองในรูปแบบ Baidu ต่อรูปแบบที่มีอยู่แล้ว สิ่งที่มีประโยชน์ที่สุดคือเขาให้ชื่อและตัวชี้วัดแก่การเปลี่ยนแปลงที่กำลังเกิดขึ้นเงียบๆ ในตลาดวิดีโอ AI มาสี่เดือน
ชั้นโมเดลยังคงเคลื่อนไหว มันจะเคลื่อนไหวต่อไป Gemini Omni สัปดาห์หน้า Seedance 3 ใน Q3 ไม่ว่าอะไรที่ Anthropic และ Meta ส่งภายในสิ้นปี ไม่มีอะไรจะนิ่ง นั่นแหละคือประเด็น เมื่อชั้นโมเดลอยู่ในการเคลื่อนไหวถาวร สถานที่เดียวที่ทนทานสำหรับการสร้างคือสูงขึ้นไปหนึ่งชั้น — ที่ชั้น agent ที่เวิร์กโฟลว์ทบต้นและการจัดวงดีขึ้นด้วยการใช้งาน
สำหรับวิดีโอ AI นี่ไม่ใช่การคาดเดา เราดำเนินงานบนทฤษฎีนี้ตั้งแต่ต้นปี 2026 ซึ่งเป็นเหตุผลที่ Genra ถูกสร้างเป็น agent ครบวงจรบน Veo + Seedance แทนที่จะเป็น frontend ของโมเดลเดียว งานของ agent คือส่งไปยังโมเดลที่ถูกต้อง จัดการความต่อเนื่องข้ามช็อต ซิงค์เสียงและการเคลื่อนไหว และส่งมอบการตัดต่อสุดท้ายโดยไม่ทำให้คุณเป็นเครื่องยนต์ routing คีย์โน้ตของหลี่คือการรับรองสาธารณะที่ชัดเจนที่สุดของตัวเลือกสถาปัตยกรรมนี้ที่เราได้รับในปีนี้
ห้าวันถึง Google I/O สิบห้าถึงการไต่สวน MiniMax สองสัปดาห์ข้างหน้าจะบอกคุณว่าอุตสาหกรรมเห็นด้วยกับสิ่งที่หลี่พูดในปักกิ่งวันนี้แค่ไหน
FAQ
Baidu Create 2026 คืออะไร?
การประชุมนักพัฒนา AI ประจำปีของ Baidu วันที่ 13–14 พฤษภาคม 2026 ในปักกิ่ง CEO โรบิน หลี่ ใช้คีย์โน้ตวันที่ 14 ประกาศยุค agent และเสนอ DAA เป็นตัวชี้วัดใหม่
โรบิน หลี่ ประกาศอะไรกันแน่?
สี่ผลิตภัณฑ์: DuMate (agent ทั่วไป), Miaoda app + องค์กร (~90% โค้ดเอง), Baidu YiJing อัปเดต และ Famou Agent 2.0 รวมถึงตัวชี้วัด DAA และทฤษฎีวิวัฒนาการ AI สามชั้น
Daily Active Agents (DAA) คืออะไร?
เทียบเท่ายุค-agent ของ DAU วัด agent อิสระทำงานที่มีประโยชน์ต่อวันกี่ตัว หลี่คาดการณ์ทั่วโลก > 10 พันล้าน
ทำไมสำคัญเฉพาะกับวิดีโอ AI?
วิดีโอ AI พิสูจน์ทฤษฎีเชิงประจักษ์ในสี่เดือน
«ซอฟต์แวร์ใช้แล้วทิ้ง» ประยุกต์กับวิดีโออย่างไร?
สำหรับวิดีโอ: ชุด agent เฉพาะโปรเจกต์แทนเครื่องมือถาวร
ฉันควรทำอย่างไรในฐานะครีเอเตอร์?
หยุด benchmark โมเดลแยก เริ่ม benchmark เวิร์กโฟลว์
เกี่ยวกับผู้เขียน
Chris Sherman เขียนเรื่องเทคโนโลยีวิดีโอ AI และเวิร์กโฟลว์การผลิตเชิงสร้างสรรค์ ติดตาม @GenraAI สำหรับรายงานสด Google I/O 2026 (19–20 พฤษภาคม) และการไต่สวน MiniMax (29 พฤษภาคม)