Gemini Omni: ما يكشفه التسريب قبل I/O فعلاً

· Chris Sherman

2 مايو: سلسلة UI. 11 مايو: أول مقاطع مولّدة. 19-20 مايو: الإعلان. ستة أيام قبل كلمة Google — هذا ما هو معروف عن Gemini Omni، وما هو غير معروف.

تسريب من فصلين

بالنسبة لنموذج لم يُعلَن بعد، حظي Gemini Omni بتمهيد موثَّق بشكل غير معتاد. يبدأ الأثر في 2 مايو 2026، عندما رصد مستخدم على X سلسلة UI مدفونة داخل علامة تبويب توليد الفيديو في Gemini تقول: «Start with an idea or try a template. Powered by Omni». نشر TestingCatalog عنها في اليوم نفسه. بقيت السلسلة هناك تسعة أيام بينما تكهن الجميع.

ثم في 11 مايو 2026، سقط الحذاء الثاني. سُرّبت مقاطع مولَّدة — أُنتجت بوضوح من شيء آخر غير Veo 3.1 المتاح للعموم — من حساب Gemini Pro واحد على الأقل. لاقى اثنان أكبر اهتمام: مشهد سباجيتي في مطعم على شاطئ البحر، وأستاذ يطوّر براهين حساب المثلثات على سبورة. تناقلهما 9to5Google وAndroid Authority وChrome Unboxed وعشرات الوسائل الأخرى خلال 24 ساعة.

الحدث الكبير التالي هو Google I/O 2026 في 19-20 مايو. عندما تقرأ هذا، تبقى على الأرجح ستة أيام. أكّد Google أن تحديثات Gemini والذكاء الاصطناعي مدرجة في الأجندة، لكنه لم يؤكّد Omni بالاسم.

هذه المقالة لقطة من 13 مايو — منتصف الفجوة. ما هو حقيقي، وما هو تخمين، وما تلمح إليه المقاطع، وما يجب مراقبته فعلاً عندما تبدأ الكلمة. سنحدِّث بعد I/O.

الجدول الزمني باختصار

التاريخالحدثموثوقية المصدر
2 مايو 2026اكتشاف سلسلة UI «Powered by Omni» داخل علامة تبويب فيديو Geminiعالية — لقطة شاشة منتشرة
2-10 مايو 2026مرحلة تخمين. لا مخرجات ملموسة، لكن وسائل متعددة تؤكّد السلسلةمُتحقَّق منه
11 مايو 2026تسرب مقاطع من حساب Gemini Pro — خاصةً مشهد السباجيتي وأستاذ السبورةعالية — وسائل متعددة تنشر مستقلةً المقاطع نفسها
11-12 مايوظهور سلسلة UI موسَّعة: «Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more»مُتحقَّق منه
19-20 مايو 2026كلمة Google I/O 2026 — الإعلان الرسمي المرجَّحمُجدوَل (لم يحدث بعد)

أمران بارزان. الأول: حدث التسريب داخل المنتج، لا في زلَّة تسويقية — يبدو أن Google بدأ طرح Omni لشريحة صغيرة من مستخدمي Gemini Pro قبل الإعلان، وكان الطرح ظاهراً بما يكفي لالتقاطه. هذه إشارة أكثر مصداقية بكثير من تسريب صحفي. الثاني: السلسلة الموسَّعة («remix your videos, edit directly in chat, try templates») تخبرك بأن Google يؤطِّر هذا بوصفه منتج سير عمل لا مجرد نموذج — تعابير مثل «edit directly in chat» و«remix» لغة منتج استهلاكي، لا لغة معايير.

ماذا يُظهر المقطعان فعلاً

المقطعان المسرّبان هما أكثر المعلومات الملموسة المتاحة حالياً. كلاهما قصير — أقل من 10 ثوانٍ — ومولَّد من تلميحات نصية فيما وصفه المستخدمون بواجهة الويب لـ Gemini Pro.

المقطع 1: مشهد السباجيتي

زبون في مطعم على شاطئ البحر يأكل سباجيتي، إضاءة غروب، أصوات بيئية متوسطية. الأمر اللافت ليس الدقة البصرية — هي تنافس ما يصنعه Veo 3.1 بالفعل. الأمر اللافت هو أن السباجيتي يتصرف كسباجيتي. يلتف حول الشوكة، يقع بثقل، وحركة الشوكة-إلى-الفم تحترم الاستمرارية. مشاهد الطعام عالية الفيزياء كانت تاريخياً نقطة ضعف لنماذج الفيديو — الأدوات والطعام تتشوّه بشكل غير طبيعي، الخصلات تنكسر، الجاذبية تتوقف في منتصف المشهد. يتعامل المقطع المسرّب مع هذا بنظافة، ما يوحي بأن النموذج الأساسي يملك مُسبَقاً فيزيائياً أفضل بوضوح من Veo 3.1 العام.

المقطع 2: أستاذ السبورة

أستاذ يطوّر براهين حساب المثلثات على سبورة. تبقى الكاميرا على السبورة فيما يكتب. ما يهم هنا هو عرض النص والصيغ. نماذج الفيديو بالذكاء الاصطناعي سيئة السمعة في النص المتسق — الحروف تنجرف بين الإطارات، المعادلات تصير هذراً في منتصف الطريق، وأي شيء يبدو رياضياً ينهار عادةً. يُظهر المقطع المسرّب رموزاً رياضية مميَّزة معروضة باتساق عبر الإطارات، ويد الأستاذ تتابع الضربات بشكل صحيح. ليس تحسيناً طفيفاً؛ هذه فئة كانت مكسورة منذ عامين.

ما يضمنه المقطعان معاً

إذا كانت المقاطع المسرّبة تمثيلية — وعلينا أن نأخذ «إذا» على محمل الجد، لأن Google سيبذر طبيعياً مقاطع تُظهر أفضل مخرجاته — فإن Omni يستهدف اثنتين من أصعب نقاط ضعف الفيديو بالذكاء الاصطناعي المعروفة: الفيزياء المعقّدة وعرض النص على الشاشة. هاتان نقطتان أشار إليهما كلٌّ من تراجع Sora 2 وإطلاق HappyHorse 1.0 بوصفهما الجبهة التالية. (للسرد المعتمد، انظر حصاد منتصف 2026.)

اختيار محتوى الديمو يهم. مشهد السباجيتي ودرس الرياضيات ليسا استعراضين جماليين — بل استعراضا قدرات يستهدفان بدقة الأشياء التي لا يمكن للمنافسة فعلها بثبات. هذا يخبرك بمواجهة من يضع Google Omni.

ثلاث نظريات متنافسة عن ماهية Omni

هنا يعيش التخمين قبل I/O. هناك ثلاثة تفسيرات معقولة لما يمثّله Omni، ولها تبعات مختلفة جداً لباقي السوق.

النظرية 1: إعادة علامة استهلاكية لـ Veo 3.1

التفسير الأبسط: Omni ما هو إلا اسم عام جديد لخط أنابيب Veo الموجود داخل تطبيق Gemini الاستهلاكي. لا تتغير حُزمة التوليد الأساسية. يسحب Google علامة «Veo» من السطح الاستهلاكي، يبقيها لواجهة Vertex AI للشركات، ويمنح تجربة دردشة Gemini اسم منتج موحَّد.

المؤيِّد: لدى Google تاريخ من إعادة التسمية. Bard → Gemini كان أبرز مثال. العلامة الاستهلاكية حول «Veo 3.1» كانت دائماً ركيكة — أرقام الإصدارات لا تُباع لغير التقنيين. سلاسل UI («remix your videos, edit directly in chat») تؤكّد سير العمل، لا جدة النموذج.

المعارِض: تُظهر المقاطع المسرّبة قدرات تتجاوز Veo 3.1 العام بوضوح، خاصةً في الفيزياء وعرض النص. الإعادة الخالصة للعلامة لن تنتج مخرجات مختلفة بصرياً. ما لم يُطلق Google Veo 3.2 بهدوء تحت علامة Omni، فهذه النظرية لا تفسّر المقاطع.

النظرية 2: نموذج فيديو منفصل مُدرَّب داخل Gemini

التفسير الوسط: Omni نموذج فيديو جديد مُدرَّب داخل خط Gemini — منفصل عن خط أنابيب Veo التابع لـ DeepMind — ويقف بجانب Veo في خارطة طريق Google بدل أن يحل محله. Gemini الاستهلاكي يستخدم Omni؛ عملاء المؤسسات على Vertex AI يواصلون استخدام Veo. كلاهما يتطور بالتوازي.

المؤيِّد: حافظ Google تاريخياً على خطوط نماذج متوازية (Gemini للمستهلك، خطوط بحث منفصلة للمؤسسات). قفزة القدرات في المقاطع المسرّبة تنسجم مع نموذج مُدرَّب على مزيج بيانات وبنية مختلفين عن Veo 3.1.

المعارِض: تشغيل خطين من أعلى نماذج الفيديو مكلف. تراجع Sora 2 الذي غطيناه في التشريح بعد الواقعة أظهر أن حتى OpenAI لم تستطع إبقاء نموذج فيديو استهلاكي واحد على المقياس؛ تشغيل اثنين سيكون خياراً استراتيجياً غريباً لـ Google.

النظرية 3: نموذج Omni موحَّد (صورة + فيديو + صوت في تمريرة أمامية واحدة)

التفسير الأكثر طموحاً: Omni أول عضو في عائلة نماذج جديدة مُدرَّبة داخل Gemini تتعامل مع توليد الصور والفيديو والصوت المتزامن في تمريرة أمامية واحدة. هذه هي البنية التي افتتحها HappyHorse 1.0 حين انتزع المركز الأول في Arena في أبريل بنموذج موحَّد صوت-فيديو بـ 15 مليار معامل. في هذه النظرية، يستبدل Omni كلاً من خط Veo الحالي (فيديو) وحُزمة Nano Banana Pro (صورة) بمولِّد متعدد الوسائط واحد.

المؤيِّد: اسم المنتج نفسه — «Omni» — يوحي بقوة بنطاق متعدد الوسائط. تأطير UI («our new video model, remix your videos, edit directly in chat») يوحي بسطح منتج واحد يغطي وسائط متعددة. الضغط التنافسي من HappyHorse لشحن بنية موحَّدة حاد؛ يخسر Google صدارة Arena منذ أبريل. (تفاصيل البنية في مراجعتنا لـ HappyHorse 1.0.)

المعارِض: النماذج الموحَّدة صعبة تقنياً، وكان Google أكثر تحفظاً من ByteDance أو Alibaba في إطلاق بُنى جديدة للمستهلك. استبدال خطّي إنتاج في الوقت نفسه خطوة عالية المخاطر لكلمة عامة.

أين الرهان

ينقسم مراقبو الصناعة تقريباً 30/30/40 على النظريات الثلاث. القراءة الأرجح، استناداً إلى تأطير UI وقفزة القدرات، هي مزيج بين النظريتين 2 و3: نموذج Gemini مُدرَّب جديد يتعامل على الأقل مع الفيديو والصوت بشكل موحَّد، مع إبقاء Veo حياً على Vertex AI لعملاء المؤسسات الذين يحتاجون ثباتاً. سنعلم بعد ستة أيام.

لماذا يهم هذا فيما يتجاوز Google

Omni ليس مثيراً للاهتمام لأن Google يصدر نموذج فيديو جديد. نماذج فيديو جديدة تصدر كل شهر الآن. Omni مثير للاهتمام بسبب ما سيعنيه لو صحَّت النظرية 3.

أنفقت صناعة الفيديو بالذكاء الاصطناعي الأشهر الأربعة الأولى من 2026 وهي ترى أطروحة النموذج الموحَّد تنكشف. انهار Sora 2 في 84 يوماً بهندسة خطوط منفصلة. انتزع HappyHorse 1.0 صدارة Arena في 48 ساعة ببنية موحَّدة 15B. يُخرج Seedance 2.0 الصوت والفيديو معاً عبر Transformer ذي فرعَين. تحوّل مركز ثقل التقنية نحو النماذج الموحَّدة ربعاً كاملاً، والمختبر الغربي الكبير الوحيد الذي لم يستجب كان Google.

إذا كان Omni نموذجاً موحَّداً حقيقياً — النظرية 3 — فإن Google يلحق بالاتجاه المعماري الذي رسّخه القادة الصينيون. لهذا ثلاثة آثار:

  1. تُدمج علامة Veo أو تتقاعد. إبقاء Veo بخطوط منفصلة إلى جانب Omni موحَّد لأكثر من 12 شهراً لا معنى له. سيتوقع عملاء Vertex AI مساراً للترحيل.
  2. تُغلَق الفجوة المعمارية بين الغرب والصين. تأطير «النماذج الصينية لديها تقدّم بنيوي لأنها رائدة البنى الموحَّدة» يضعف حالما يطلق Google نموذجه.
  3. يستمر ضغط التمايز على طبقة النموذج. إذا استخدم أربعة من أعلى ستة نماذج بنى موحَّدة صوت-فيديو، تتسلَّع طبقة النموذج أكثر وتصبح طبقة الـ agent نقطة التمايز الجوهرية الوحيدة. هذه هي الأطروحة المحورية في حصاد منتصف 2026، وسيمدّها Omni.

إذا كان Omni مجرد إعادة علامة (النظرية 1)، فإن معظم ذلك لا ينطبق. لكن المقاطع المسرّبة تجعل النظرية 1 الأقل احتمالاً من الثلاث.

ما يجب مراقبته في I/O — قائمة من ست نقاط

عند انطلاق الكلمة في 19 مايو، إليك ما يخبرك بأي نظرية صحيحة. لا إشارة منفردة قاطعة، لكن مجتمعة تشكِّل صورة واضحة.

الإشارة 1: هل يقول Google «Veo» على منصة الكلمة؟

إذا غاب Veo بشكل ملحوظ عن قطاع Gemini الاستهلاكي، فهذا دليل على تقاعد Veo بوصفه علامة استهلاكية. إن استمر ذِكر Veo إلى جانب Omni، فهما يتعايشان (النظرية 2). إن ذُكرا معاً لكن وُضع Veo فقط للمؤسسات، فإن الترحيل يبدأ.

الإشارة 2: هل يولّد Omni الصوت في الاستدعاء نفسه مع الفيديو؟

استدعاء API واحد يعيد فيديو + صوتاً متزامنَين هو التوقيع التقني لنموذج Omni موحَّد (النظرية 3). استدعاءا API منفصلان — فيديو أولاً ثم استدعاء ثانٍ لتركيب الصوت — هما النمط المعماري الأقدم. سيُظهر ديمو الكلمة ذلك بوضوح على الأرجح.

الإشارة 3: هل يتعامل Omni مع توليد الصور أيضاً؟

إذا وُضع Omni فقط بوصفه نموذج الفيديو الجديد، فالنطاق أضيق. إن استوعب Omni توليد الصور — مُحلَّاً Nano Banana Pro داخل سطح دردشة Gemini — فهذا دليل على الأطروحة متعددة الوسائط الأوسع. راقب ما إذا كانت ديموهات توليد الصور في الكلمة تُنسب إلى «Omni» أو تبقى تحت Nano Banana / Imagen.

الإشارة 4: هل يوجد API من اليوم الأول؟

أُطلق Veo 3.1 على Vertex AI في يوم كلمته الأول. إذا أُطلق Omni بوصول API عام وأسعار في 19-20 مايو، فهو مهيَّأ للاستخدام في الإنتاج فوراً. إن أُطلق للمستهلك فقط مع API «لاحقاً هذا العام»، فإن Google يسلك مسار التجزئة أولاً لـ Sora 2 — وقد رأينا أنه لا يعمل اقتصادياً على المقياس.

الإشارة 5: ما هو هيكل التسعير؟

المعيار الحالي لتسعير API العام في الفئة العليا يتراوح بين 0.05 دولار/ثانية (HappyHorse 1.0) و0.50 دولار/ثانية (Veo 3.1). إذا اقترب سعر API لـ Omni من HappyHorse، فإن Google يتنافس على التكلفة؛ إن اقترب من Veo 3.1، فعلى الجودة. الخيار يخبرك بأي سوق يولِيه Google الأولوية.

الإشارة 6: كيف يلتحم Project Astra؟

يَعرض Google Project Astra — مساعده متعدد الوسائط الفوري — في كل I/O منذ 2024. إذا تحوَّل Astra فجأة إلى منتج في 19-20 مايو واستخدم Omni من تحته، فتلك الأطروحة «Omni» الأوسع: ليس مجرد نموذج فيديو بل سطح ذكاء اصطناعي متعدد الوسائط فوري يمتد عبر تجربة Gemini كلها.

ماذا يعني هذا لسير عملك

ثلاث نقاط عملية ريثما ننتظر الكلمة.

إن كنت مبدعاً يستخدم Gemini مباشرةً

لا تغيّر شيئاً بعد. Omni في تطبيق Gemini الاستهلاكي، إن أُطلق الأسبوع المقبل، سيستبدل أو يطوِّر تجربة توليد الفيديو القائمة فحسب. صياغة «remix your videos, edit directly in chat» تقترح سير عمل قائم على الدردشة تعرفه بالفعل، بنموذج أذكى تحته. انتظر الإعلان، جرّب القدرات الجديدة، وعدِّل تلميحاتك بناءً على ما يتغير فعلاً.

إن كنت تبني فوق Vertex AI

راقب الإشارة 1 (علامة Veo) والإشارة 4 (توافر API) عن كثب. إذا تقاعد Veo كعلامة استهلاكية وبقي على Vertex AI للمؤسسات، فتكاملك القائم آمن. إن استبدل Omni Veo كلياً على Vertex AI، فأمامك ترحيل API. في كلتا الحالتين، ابنِ تكاملك عبر طبقة agent أو تنسيق ليصبح تبديل النموذج تغيير إعداد لا تغيير كود.

إن كنت تشغّل حُزمة agent متعددة النماذج

هذا هو الوضع الذي ندعو إليه في مقالاتنا الأخيرة. (انظر التحولات الست وعُنُق زجاجة الفيديو الطويل.) يعامل agent متعدد النماذج Omni كمولِّد آخر للتوجيه إليه — بجانب Veo وSeedance وHappyHorse وKling وLuma وRunway. طبقة الـ agent هي حيث يعيش السؤال المثمر: أيُّ لقطة في هذا الفيديو ذي 60 ثانية تُوجَّه إلى أي نموذج. إعلان Omni يضيف خياراً آخر إلى جدول التوجيه؛ لا يغيّر البنية التي تشغّلها.

هذا بالضبط سبب إبقاء حُزمة Genra محايدة للنموذج: تستمر طبقة النموذج في الحركة، طبقة الـ agent هي التي تتراكم.

الخلاصة، ستة أيام قبل I/O

ما نعرفه: هناك نموذج حقيقي يُدعى Omni داخل علامة تبويب فيديو Gemini، يُنتج مخرجات أفضل بوضوح من Veo 3.1 العام في الفيزياء والنص، ويؤطِّره Google كمنتج سير عمل قائم على الدردشة. ما لا نعرفه: ما إذا كان إعادة علامة، أو نموذجاً جديداً موازياً، أو نظام Omni-modality موحَّداً.

التوقع المنفرد الأكثر فائدة هو الثالث. إن صحَّت النظرية 3، تُغلَق الفجوة المعمارية بين الغرب والصين في 19 مايو، وتعود الصناعة إلى سباق متعدد الأقطاب تشغّل فيه كل المختبرات الكبرى بنى موحَّدة صوت-فيديو. إن أخطأت النظرية 3، يبقى Google متأخراً عن الجبهة المعمارية التي رسمها HappyHorse — ويبقى المشهد التنافسي كما هو منذ إطلاق HappyHorse في أبريل.

في كلتا الحالتين، الخلاصة العملية ذاتها: تستمر طبقة النموذج في الحركة، وطبقة الـ agent هي حيث يجب أن تبني. لا يغيِّر Omni ذلك. إما يعزِّزه (بإضافة نموذج سلعي آخر إلى جدول التوجيه)، أو لا يحرّك الإبرة (إن كان إعادة علامة). الفِرَق التي نقلت تمايزها بالفعل إلى بنية الـ agent ستمتص ما يعلنه Google في 19 كتحديث إعداد. الفِرَق التي تراهن على نموذج بطل واحد ستقضي بقية الربع الثاني في إعادة الضبط.

سنحدِّث هذه المقالة بعد الكلمة بما يُعلَن فعلاً.

الأسئلة الشائعة

ما هو Gemini Omni؟

Gemini Omni نموذج توليد فيديو بالذكاء الاصطناعي غير معلَن طفا عبر تسريبين داخل واجهة Gemini من Google — سلسلة UI رُصدت في 2 مايو 2026، ومقاطع فيديو مولَّدة سُرّبت من حساب Gemini Pro في 11 مايو. لم يؤكّد Google Omni رسمياً حتى 13 مايو. النافذة الأرجح للإعلان هي Google I/O 2026 في 19-20 مايو.

هل سيستبدل Gemini Omni محل Veo؟

غير مؤكَّد. ثلاث نظريات في الميدان: Omni إعادة علامة استهلاكية لـ Veo 3.1، أو Omni نموذج جديد منفصل مُدرَّب في Gemini يتعايش مع Veo، أو Omni نموذج Omni-modality موحَّد يستبدل Veo وحُزمة توليد الصور معاً. توحي المقاطع المسرّبة بقدرات تفوق Veo 3.1 العام الحالي، ما يجعل نظرية إعادة العلامة الخالصة الأقل احتمالاً.

ماذا أظهرت المقاطع المسرّبة؟

مقطعان نالا أكبر اهتمام: مشهد سباجيتي في مطعم على شاطئ البحر (ملاحَظ لإدارة حركة الطعام عالية الفيزياء)، وأستاذ يطوّر براهين حساب المثلثات على سبورة (ملاحَظ لعرض رموز رياضية متسقة عبر الإطارات). كلتاهما منطقة ضعف معروفة في نماذج الفيديو.

متى نعرف ما هو Omni فعلاً؟

Google I/O 2026 في 19-20 مايو. راقب ست إشارات: هل لا يزال Veo مذكوراً، هل يُولَّد الصوت في الاستدعاء نفسه مع الفيديو، هل يُدرَج توليد الصور، هل يوجد API في اليوم الأول، ما هو التسعير، وكيف يلتحم Project Astra.

ماذا أفعل كمبدع قبل الإعلان؟

لا تغيّر شيئاً بعد. إن كنت تستخدم Gemini الاستهلاكي، انتظر الإطلاق. إن كنت على Vertex AI، انتبه لمسار ترحيل API. إن كنت تشغّل حُزمة agent متعددة النماذج، عامل Omni كمولِّد آخر للتوجيه إليه.

كيف يُقارَن Omni بـ HappyHorse 1.0؟

انتزع HappyHorse 1.0 صدارة Artificial Analysis Video Arena في 48 ساعة عندما أُطلق في 7 أبريل 2026، ببنية موحَّدة صوت-فيديو 15B معامل. إذا كان Omni أيضاً نموذجاً موحَّداً، فإنه يمثّل أول رد من Google على هذا الاتجاه المعماري.


عن الكاتب
يغطّي Chris Sherman تقنية فيديو الذكاء الاصطناعي وسير عمل الإنتاج الإبداعي. تابع @GenraAI للتغطية الحية أثناء كلمة Google I/O 2026 في 19-20 مايو.