عشية I/O 2026: 5 أسئلة حقيقية في فيديو الذكاء الاصطناعي (ليس 5 نماذج جديدة)

· Chris Sherman

يفتتح Google I/O 2026 خلال أقل من 24 ساعة. الإنترنت كلها مغطاة بمنشورات التنبؤ بـ Veo 4. الكل يطرح السؤال نفسه: ما مواصفات النموذج الجديد؟ هذا هو السؤال الخطأ. الأسئلة الخمسة التي تشكّل فعليًا فيديو الذكاء الاصطناعي الآن لا علاقة لها تقريبًا بأي نموذج يفوز غدًا.

إنها مساء 18 مايو 2026. صباح الغد، سيصعد Sundar Pichai إلى المسرح ليعلن عن الجيل القادم من Veo. كل صانع محتوى ومسوّق ومحلل في مجال فيديو الذكاء الاصطناعي يحدّث الجداول الزمنية نفسها على Twitter منتظرًا تسريبات المواصفات.

رأي يخالف الحدس: إعلان الغد على الأرجح لن يغيّر الكثير. ليس لأنه لن يكون مبهرًا — بل على الأرجح سيكون. بل لأن المشكلات غير المحلولة فعليًا في فيديو الذكاء الاصطناعي تجاوزت منذ زمن سؤال "أي نموذج يقدم أفضل مخرج". هذه المشكلات تعيش طبقة أعلى، في الفجوة بين المقطع والفيديو المكتمل. Veo أفضل لن يسدّ هذه الفجوة. agent أفضل سيفعل.

في الأسفل خمسة أسئلة أهم من keynote الغد. اقرأها، ثم اذهب لتستمتع بالعرض.

السؤال 1: لماذا لا يزال الاتساق بين المقاطع ينكسر؟

كل نموذج فيديو ذكاء اصطناعي في 2026 يمكنه إنتاج مقطع جميل مدته ثماني ثوان. شغّله مرة أخرى بنفس البرومبت وستحصل على شخص مختلف، منتج مختلف، لون علامة تجارية مختلف، خلفية مختلفة. النموذج لا يملك ذاكرة بين عمليات التوليد.

للقطة سينمائية مفردة، هذا جيد. لأي شيء يشبه فيديو حقيقي — عرض منتج من ثلاث زوايا، إعلان فيه راوٍ يظهر في اللقطتين الأولى والرابعة، وحدة دورة بمقدم ثابت — هذه هي المشكلة بأكملها.

إجابة طبقة النموذج هي التشريط بصور مرجعية: ترفع ثلاث صور لشخصية، فيحاول النموذج مطابقتها. ينجح ربما 70% من الوقت. الـ 30% المتبقية هي حيث تذهب فعليًا معظم ساعات الإنتاج.

إجابة طبقة الـ agent مختلفة: الحفاظ على مجموعة مراجع لكل كيان (شخصية، منتج، بيئة) عبر السلسلة كاملة، وإعادة توليد اللقطات الفاشلة تلقائيًا، وقفل seeds حيث يهم الاتساق، وإصدار نسخ من المراجع كي تبقى أصول العلامة التجارية مستقرة عبر أشهر من المحتوى. تحسين النموذج يساعد. التنسيق هو ما يجعل الأمر قابلًا للتسليم.

ما لن يحله الغد: قد يأتي Veo 4 بـ ID-embedding أصيل. سيكون أفضل من اليوم. لن يحل مشكلة الاتساق لمسوّق ينتج 40 مقطعًا شهريًا عبر 8 SKUs دون أن يضطر للتفكير بها.

السؤال 2: لماذا لا يزال "المقطع" يُخلط مع "الفيديو المكتمل"؟

شاهد أي عرض توضيحي لنموذج وسترى الشيء نفسه: لقطة واحدة، إضاءة مثالية، بلا قطع، بلا ترجمات، بلا موسيقى، بلا تأطير خاص بالمنصة، بلا CTA. إنها مقطع. ليست فيديو سينشره أحد فعليًا.

الفيديو الحقيقي — النوع الذي يذهب إلى قناة YouTube، خلاصة TikTok، حساب إعلانات، صفحة منتج — لديه سيناريو، تخطيط مشاهد، تعليق صوتي، B-roll، ترجمات باللغة المستهدفة، قطع على الإيقاع، خطّاف في أول ثلاث ثوانٍ، وصيغة إخراج تتوافق مع منصته المستهدفة. النموذج يتعامل مع واحد من هذه. العشرة الأخرى هي مشكلة يدوية لشخص ما.

الحل الافتراضي الحالي هو خياطة خمس أدوات معًا: كاتب سيناريو، نموذج فيديو، مولّد صوت، محرر، أداة ترجمة. لكل أداة واجهتها الخاصة، تسعيرها، وأوضاع إخفاقها. النتيجة: لا يزال "فيديو الذكاء الاصطناعي" يستغرق ساعات لكل أصل مكتمل لأي شخص جادّ في الجودة.

إجابة طبقة الـ agent هي امتلاك خط الإنتاج كاملًا كنظام واحد. برييف بلغة طبيعية يدخل، فيديو مكتمل يخرج. تعمل Genra على Veo و Seedance وتتولى كل خطوة بينهما. هذا ليس تحسينًا في سير العمل. إنها فئة منتج مختلفة.

ما لن يحله الغد: سينتج Veo 4 مقاطع أفضل. الفجوة بين المقطع والفيديو المكتمل تبقى في مكانها بالضبط.

في 29 مايو 2026، تدخل قضية حقوق نشر MiniMax مرحلة الجلسات. إنها أول قضية كبرى لحقوق نشر فيديو ذكاء اصطناعي تصل إلى مرحلة حكم موضوعية، والنتيجة ستضع سابقة قضائية ستعيش معها الصناعة كلها لسنوات.

تشمل الأسئلة المطروحة على المحكمة: هل يمكن تدريب نموذج على لقطات محمية بحقوق نشر دون ترخيص؟ من المسؤول حين يبدو مقطع مولَّد بالذكاء الاصطناعي مشابهًا جوهريًا لمشهد محمي بحقوق نشر — مزود النموذج، المنصة، أم المستخدم النهائي؟ ماذا يعني "مشابه جوهريًا" أصلًا حين شاهد النموذج ملايين فيديوهات التدريب؟

هذا يهم أكثر من keynote الغد لسبب واحد: إعلان Veo 4 منتج. حكم حقوق نشر قيد يشكّل كل منتج. إذا مال الحكم في اتجاه، فإن افتراضات الـ safe harbor التي يعمل تحتها حاليًا كل مزود غربي لفيديو الذكاء الاصطناعي ستُعاد توزيعها. إذا مال في الاتجاه الآخر، فإن الخندق حول بيانات التدريب يصبح أصلًا قابلًا للدفاع عنه فعلًا.

صناع المحتوى الأذكياء وفرق العلامات التجارية لا ينتظرون الحكم. يتعاملون مع فيديو الذكاء الاصطناعي التجاري كشيء يحتاج إلى سلسلة أدلة قابلة للدفاع — أي نماذج استُخدمت، أي مراجع رُفعت، أي موافقات حُصل عليها. خط إنتاج Genra يسجّل ذلك افتراضيًا، لأننا نتوقع أن الأرضية التنظيمية ستواصل التحرك.

ما لن يحله الغد: Google لن تتطرق إلى قضية MiniMax في I/O. المشهد القانوني تحت أقدام الجميع يواصل التحرك بصرف النظر عن مواصفات Veo 4 التي ستُشحن معها.

السؤال 4: إلى أين يذهب فعليًا فيديو ذكاء اصطناعي مكتمل؟

ولّدت فيديو. ماذا الآن؟ يحتاج إلى الهبوط على YouTube بـ 16:9، وعلى TikTok بـ 9:16، وعلى Instagram Reels مع ترجمات محروقة للتشغيل التلقائي، وعلى صفحتك المقصودة كـ MP4 مضمّن، وعلى منصة إعلانات مدفوعة مع إعادة قص أول ثلاث ثوان كنسخة هوك بديلة، وعلى قائمة بريدك كصورة مصغّرة تربط بمشغّل مستضاف.

لكل وجهة نسبة عرضها، حد مدة، حد حجم ملف، صيغة ترجمة، متطلبات وصول، وتكامل تحليلات خاص. النموذج ينتج مخرجًا مرسومًا واحدًا. عمل التوزيع مشروع منفصل أكبر يدوي في معظمه.

هذا هو الجزء من فيديو الذكاء الاصطناعي الذي لا يعرضه أحد في I/O. وهو أيضًا الجزء الذي يقرر هل الفيديو يجلب أموالًا أم يقبع في مجلد.

إجابة طبقة الـ agent هي جعل التوزيع مخرجًا من الدرجة الأولى. نفس البرييف، عدة مقاطع أصيلة لكل منصة، تُولَّد بالتوازي، تُحسَّن للسلوك الفعلي لكل سطح — خوارزمية TikTok لا تكافئ بنية الهوك نفسها التي يكافئها YouTube Shorts، و Instagram Reels تفضّل إطارًا أوّل مختلفًا تمامًا.

ما لن يحله الغد: توليد أفضل لا يحل التوزيع. المنصات تبقى مجزأة. عمل التكيّف مع كل منها يبقى كما هو. إما أن تتحمله طبقة الـ agent أو يتحمله المستخدم.

السؤال 5: متى يتوقف فيديو الذكاء الاصطناعي عن كونه مركز تكلفة؟

جعلت Google تطبيق Veo 3.1 مجانيًا في أبريل. انهارت تكلفة توليد المقاطع الفردية لأي شخص مستعد لقبول علامة مائية وحد 8 ثوان. النماذج المجانية في كل مكان. فلماذا إذًا لا تزال ميزانيات فيديو الذكاء الاصطناعي في معظم الشركات تنمو؟

لأن تكلفة النموذج لم تكن قط هي عنق الزجاجة. عنق الزجاجة هو العمل المحيط بها: هندسة البرومبت، الخياطة اليدوية، رعاية الاتساق، القص حسب المنصة، حلقات التكرار مع أصحاب المصلحة، فحص جودة العلامة التجارية. نموذج مجاني يُسقط البند الذي كان أصلًا خطأ تقريب ويترك بنية التكلفة الحقيقية كما هي.

الشركات التي نقلت فيديو الذكاء الاصطناعي من "تجربة" إلى "بنية تحتية" فعلت ذلك بمعاملة طبقة الـ agent كوحدة تكلفة، وليس النموذج. هم يقيسون التكلفة لكل فيديو مكتمل مُسلَّم، لا التكلفة لكل مقطع مولَّد. تلك الأرقام تشير إلى استنتاج مختلف عما يوحي به سرد النموذج المجاني.

لمعظم الفرق، يبدو الطريق إلى تحوّل فيديو الذكاء الاصطناعي إلى مركز ربح هكذا: امتلاك خط إنتاج البرييف-إلى-المكتمل في أداة واحدة، إلغاء ضريبة خياطة الأدوات الخمس، قياس المخرج أسبوعيًا لكل مشغّل، والسماح لطبقة النموذج بالتحوّل إلى سلعة تحتها. تكلفة النموذج تذهب إلى الصفر. تكلفة طبقة الـ agent هي ما يحدد اقتصاديات الوحدة.

ما لن يحله الغد: حتى لو كان Veo 4 مجانيًا عند الإطلاق، فإن ميزانيتك لفيديو الذكاء الاصطناعي تنمو على الأرجح الربع القادم. البند الذي يتمدّد ليس استخدام النموذج. إنه كل شيء حوله.

النقطة الأكبر

سيكون keynote الغد عرضًا رائعًا. 4K أصيل قادم. سرديات متعددة المشاهد قادمة. توليد أسرع قادم. سندمج كل تحسّن ذي معنى تشحنه Google، لأن النماذج الأفضل تجعل فعلًا كل فيديو على Genra أفضل قليلًا.

لكن الأسئلة الخمسة أعلاه لا يجيب عنها نموذج أفضل. يجيب عنها agent أفضل، إطار قانوني ينضج، وصناعة تتوقف عن الخلط بين العروض التوضيحية والإنتاج.

شاهد keynote الغد. ثم عد واسأل ما إذا كان شيء فيه قد حرّك فعلًا الإبرة بشأن الاتساق، أو المقطع-إلى-المكتمل، أو حقوق النشر، أو التوزيع، أو اقتصاديات الوحدة الحقيقية. تنبؤنا: قليلًا في الأول، شبه لا شيء في البقية.

طبقة النموذج هي العنوان. طبقة الـ agent هي العمل.

النقاط الأساسية

  • سيهيمن على Google I/O 2026 تنبؤات وإعلانات Veo 4. النموذج طبقة واحدة في مكدّس أعلى بكثير.
  • الاتساق بين المقاطع مشكلة تنسيق في الأغلب، لا مشكلة نموذج. ID-embedding الأصيل يساعد؛ لا يسد الفجوة لمن يشحن 40 مقطعًا شهريًا.
  • المقطع ليس فيديو مكتملًا. السيناريو، التعليق الصوتي، B-roll، الترجمات، القص حسب المنصة، والتوزيع كلها مشكلات منفصلة لا يلمسها النموذج.
  • جلسة حقوق نشر MiniMax في 29 مايو ستشكّل تنظيم فيديو الذكاء الاصطناعي أكثر من أي إعلان في I/O. المشغّلون يجب أن يبدؤوا تسجيل الأصل الآن، لا لاحقًا.
  • تجزؤ التوزيع عبر YouTube و TikTok و Instagram والإعلانات والبريد هو ضريبة إنتاج بذاته. إما أن تتحمّله طبقة الـ agent أو المستخدم.
  • النماذج المجانية تُسقط البند الأرخص في إنتاج فيديو الذكاء الاصطناعي. اقتصاديات الوحدة الحقيقية تتحدد بكل شيء حول النموذج — طبقة الـ agent.
  • تعمل Genra على Veo و Seedance وتتولى خط الإنتاج كاملًا كـ agent واحد. تحسينات نموذج الغد ستندمج بصمت في الواجهة الخلفية. الأسئلة الخمسة الحقيقية تبقى في مكانها.

الأسئلة الشائعة

ما هي طبقة الـ agent في فيديو الذكاء الاصطناعي؟

طبقة الـ agent هي النظام الذي يحوّل البرييف إلى فيديو مكتمل قابل للتوزيع. تتولى السيناريو، تخطيط المشاهد، اختيار النموذج، التوليد، الاتساق، التعليق الصوتي، التحرير، الترجمة، والمخرج الخاص بكل منصة. طبقة النموذج تولّد مقاطع. طبقة الـ agent تشحن فيديوهات.

هل سيحل Veo 4 مشكلة اتساق فيديو الذكاء الاصطناعي؟

جزئيًا. إذا جاء Veo 4 بـ ID-embedding أصيل كما هو متوقع، يتحسن اتساق اللقطة المفردة. الاتساق متعدد المقاطع، متعدد الجلسات، المستقر للعلامة التجارية عبر خط إنتاج محتوى مستمر لا يزال يحتاج إلى تنسيق — إدارة المراجع، منطق إعادة التوليد، قفل seeds، التحكم في الإصدارات. النموذج يساعد. agent يقوم بالعمل.

ما هي قضية حقوق نشر MiniMax ولماذا تهم؟

قضية MiniMax هي أول مسألة حقوق نشر كبرى تتعلق بفيديو الذكاء الاصطناعي تصل إلى جلسة موضوعية، مقررة في 29 مايو 2026. الحكم سيؤثر على كيفية تفسير بيانات التدريب، ومسؤولية مخرج النموذج، والتشابه الجوهري عبر الصناعة. النتيجة تشكّل التنظيم للمزودين الغربيين والآسيويين على حد سواء.

إذا كان Veo 3.1 مجانيًا، فلماذا إنتاج فيديو الذكاء الاصطناعي ليس مجانيًا؟

لأن النموذج لم يكن قط هو الجزء المكلف. الجزء المكلف هو العمل حول النموذج — تكرار البرومبت، الخياطة اليدوية، فحص جودة الاتساق، القص حسب المنصة، حلقات أصحاب المصلحة. النماذج المجانية تُسقط البند الأرخص. تكلفة الإنتاج الحقيقية تعيش في طبقة الـ agent.

ما النماذج التي تستخدمها Genra؟

Veo و Seedance. agent يختار أي نموذج يستخدم لكل لقطة بناءً على المتطلبات. المستخدمون يصفون ما يريدون؛ agent يتولى اختيار النموذج وبقية خط الإنتاج.

متى Google I/O 2026؟

19–20 مايو 2026. تبدأ keynote الافتتاح في 19 مايو الساعة 1:00 مساءً بتوقيت شرق الولايات المتحدة / 10:00 صباحًا بتوقيت غرب الولايات المتحدة، تُبث مباشرة مجانًا على io.google. عادة ما تأتي إعلانات Veo و Gemini في أول 90 دقيقة.

كيف يجب أن تستعد العلامات التجارية لعدم اليقين بشأن حقوق نشر فيديو الذكاء الاصطناعي؟

سجّل الأصل لكل فيديو: ما النماذج التي ولّدت كل مقطع، ما المواد المرجعية التي رُفعت، أي موافقة أو ترخيص يوجد لتلك المراجع. تعامل مع سجلّ التدقيق كمسلّم به، لا كفكرة لاحقة. الأرضية القانونية ستستمر في التحرك خلال العامين القادمين.

لماذا لا يزال توزيع المنصات يستغرق هذا القدر من العمل اليدوي؟

لأن لكل منصة نسب عرض مختلفة، حدود مدة، صيغ ترجمات، أنماط هوك، وتفضيلات خوارزمية. نادرًا ما يؤدي مخرج مرسوم واحد أداء جيدًا عبر كل الأسطح. إما أن يولّد agent نسخًا أصيلة لكل منصة من نفس البرييف، أو يعيد شخص ما القص يدويًا.


عن الكاتب
يغطي Chris Sherman تقنية فيديو الذكاء الاصطناعي، معماريات الـ agent، وأعمال الإنتاج الإبداعي. تابع @GenraAI للتغطية المباشرة لـ Google I/O 2026 (19–20 مايو) وجلسة MiniMax (29 مايو).