Gemini Omni: apa yang sebenarnya diungkap kebocoran pra-I/O

2 Mei: sebuah string UI. 11 Mei: klip pertama yang dihasilkan. 19–20 Mei: pengumuman. Enam hari sebelum keynote Google — inilah yang diketahui tentang Gemini Omni dan yang belum.

Kebocoran dalam dua babak

Untuk model yang belum diumumkan, Gemini Omni punya pemanasan yang luar biasa terdokumentasi. Jejaknya dimulai pada 2 Mei 2026, ketika seorang pengguna X menemukan string UI tersembunyi di dalam tab pembuatan video Gemini: «Start with an idea or try a template. Powered by Omni». TestingCatalog menerbitkan hari yang sama. String itu tinggal di sana sembilan hari sementara semua orang berspekulasi.

Kemudian pada 11 Mei 2026, sepatu kedua jatuh. Klip yang dihasilkan — jelas diproduksi oleh sesuatu yang berbeda dari Veo 3.1 publik — bocor dari setidaknya satu akun Gemini Pro. Dua yang paling menyita perhatian: adegan spaghetti di restoran tepi laut dan seorang profesor menjabarkan pembuktian trigonometri di papan tulis. Keduanya diberitakan 9to5Google, Android Authority, Chrome Unboxed dan belasan media lain dalam 24 jam.

Acara besar berikutnya adalah Google I/O 2026 pada 19–20 Mei. Saat Anda membaca ini, mungkin tersisa enam hari. Google sudah mengonfirmasi pembaruan Gemini dan AI ada dalam agenda. Namun belum mengonfirmasi Omni dengan nama.

Artikel ini adalah cuplikan tanggal 13 Mei — tengah dari jeda. Apa yang nyata, apa yang spekulasi, apa yang diisyaratkan klip, dan apa yang sebenarnya harus diawasi saat keynote dimulai. Kami akan memperbarui setelah I/O.

Garis waktu sekilas

Tanggal	Peristiwa	Kredibilitas sumber
2 Mei 2026	String UI «Powered by Omni» ditemukan di tab video Gemini	Tinggi — tangkapan layar beredar
2–10 Mei 2026	Fase spekulasi. Tidak ada keluaran konkret, tetapi beberapa media mengonfirmasi string	Terverifikasi
11 Mei 2026	Klip bocor dari akun Gemini Pro — terutama adegan spaghetti dan profesor papan tulis	Tinggi — banyak media memberitakan klip yang sama secara independen
11–12 Mei	String UI yang lebih lengkap muncul: «Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more»	Terverifikasi
19–20 Mei 2026	Keynote Google I/O 2026 — pengumuman resmi yang paling mungkin	Terjadwal (belum terjadi)

Dua hal menonjol. Pertama, kebocoran terjadi di dalam produk, bukan keceplosan pemasaran — Google tampaknya mulai meluncurkan Omni ke sebagian kecil pengguna Gemini Pro sebelum pengumuman, dan peluncurannya cukup terlihat untuk di-screenshot. Itu sinyal yang jauh lebih kredibel daripada bocor ke pers. Kedua, string UI kedua («remix your videos, edit directly in chat, try templates») mengatakan Google memposisikannya sebagai produk alur kerja, bukan sekadar model — ungkapan seperti «edit directly in chat» dan «remix» adalah bahasa produk konsumen, bukan bahasa benchmark.

Apa yang sebenarnya ditunjukkan kedua klip

Dua klip yang bocor adalah informasi paling konkret yang tersedia saat ini. Keduanya pendek — di bawah 10 detik — dan dihasilkan dari prompt teks di apa yang pengguna sebut antarmuka web Gemini Pro.

Klip 1: adegan spaghetti

Seorang pengunjung di restoran tepi laut makan spaghetti, cahaya matahari terbenam, suasana suara Mediterania. Yang menonjol bukan kesetiaan visual — itu sudah setara dengan apa yang sudah dilakukan Veo 3.1. Yang menonjol adalah spaghetti berperilaku seperti spaghetti. Melilit garpu, jatuh dengan beban, dan gerakan garpu-ke-mulut menghormati kontinuitas. Adegan makanan berfisika tinggi secara historis adalah titik lemah model video — peralatan dan makanan berubah bentuk tidak alami, helai patah, gravitasi berhenti berfungsi di tengah jalan. Klip yang bocor menangani ini dengan rapi, menunjukkan bahwa model dasar memiliki prior fisika yang jelas lebih baik daripada Veo 3.1 publik.

Klip 2: profesor papan tulis

Seorang profesor menjabarkan pembuktian trigonometri di papan tulis. Kamera bertahan di papan tulis saat dia menulis. Hal menarik di sini adalah rendering teks dan rumus. Model video AI terkenal buruk dalam teks koheren — huruf melayang antarbingkai, persamaan jadi ngawur di tengah, apa pun yang terlihat seperti matematika biasanya runtuh. Klip papan tulis yang bocor menunjukkan notasi matematika yang dapat dikenali, dirender konsisten lintas bingkai, dengan tangan profesor mengikuti goresan dengan benar. Ini bukan peningkatan kecil; ini kategori yang rusak selama dua tahun.

Apa yang diisyaratkan kedua klip bersama-sama

Jika klip yang bocor representatif — dan «jika» itu perlu diambil serius karena Google secara alami akan menebarkan klip yang menunjukkan keluaran terbaiknya — maka Omni mengincar dua kelemahan paling sulit yang dikenal dari video AI: fisika kompleks dan rendering teks pada layar. Ini adalah dua titik yang sama yang ditunjukkan baik oleh penghentian Sora 2 maupun peluncuran HappyHorse 1.0 sebagai garis depan berikutnya. (Untuk narasi kanonik, lihat tinjauan pertengahan 2026 kami.)

Pilihan konten demo penting. Adegan spaghetti dan kelas matematika bukan unjuk estetika — mereka adalah unjuk kapabilitas yang tepat membidik hal-hal yang tidak bisa dilakukan kompetitor secara andal. Itu memberi tahu Anda terhadap apa Google memposisikan Omni.

Tiga teori bersaing tentang apa sebenarnya Omni

Di sinilah hidup spekulasi pra-I/O. Ada tiga interpretasi yang masuk akal tentang apa yang Omni wakili, dan implikasinya bagi pasar sangat berbeda.

Teori 1: rebranding konsumen dari Veo 3.1

Interpretasi paling sederhana: Omni hanyalah nama publik baru untuk pipeline Veo yang ada di dalam aplikasi Gemini konsumen. Tumpukan generasi dasarnya tidak berubah. Google menarik merek «Veo» dari permukaan konsumen, mempertahankannya untuk API enterprise Vertex AI, dan memberikan pengalaman chat Gemini satu nama produk terpadu.

Pendukung: Google punya sejarah pengubahan nama. Bard → Gemini adalah contoh paling kentara. Merek konsumen «Veo 3.1» selalu canggung — nomor versi tidak laku ke pengguna non-teknis. String UI («remix your videos, edit directly in chat») menekankan alur kerja, bukan kebaruan model.

Penolak: Klip yang bocor menunjukkan kapabilitas yang secara terlihat melampaui Veo 3.1 publik, terutama pada fisika dan rendering teks. Rebranding murni tidak akan menghasilkan keluaran yang berbeda secara visual. Kecuali Google diam-diam mengirim Veo 3.2 di bawah merek Omni, teori ini tidak menjelaskan klip-klip itu.

Teori 2: model video terpisah yang dilatih di Gemini

Interpretasi tengah: Omni adalah model video baru yang dilatih di dalam lini Gemini — terpisah dari pipeline Veo DeepMind — dan berdiri bersama Veo di peta jalan Google, bukan menggantikan. Gemini konsumen menggunakan Omni; pelanggan enterprise di Vertex AI tetap menggunakan Veo. Keduanya berevolusi paralel.

Pendukung: Google secara historis mempertahankan lini model paralel (Gemini untuk konsumen, lini riset terpisah untuk enterprise). Lompatan kapabilitas di klip yang bocor konsisten dengan model yang dilatih pada campuran data dan arsitektur berbeda dari Veo 3.1.

Penolak: Menjalankan dua lini model video kelas teratas itu mahal. Penghentian Sora 2, yang kami bahas di post-mortem, menunjukkan bahkan OpenAI tidak sanggup mempertahankan satu model video konsumen pada skala; menjalankan dua akan jadi pilihan strategis yang aneh bagi Google.

Teori 3: model omni terpadu (gambar + video + audio dalam satu forward pass)

Interpretasi paling ambisius: Omni adalah anggota pertama keluarga model baru yang dilatih di Gemini yang menangani generasi gambar, generasi video, dan audio tersinkronisasi dalam satu forward pass. Ini adalah arsitektur yang dirintis HappyHorse 1.0 ketika merebut Arena #1 di bulan April dengan model audio-video terpadu 15B parameter. Di bawah teori ini, Omni menggantikan baik pipeline Veo saat ini (video) maupun tumpukan Nano Banana Pro (gambar) dengan satu generator multimodal.

Pendukung: Nama produk sendiri — «Omni» — sangat menyiratkan cakupan multimodal. Pembingkaian UI («our new video model, remix your videos, edit directly in chat») menyarankan satu permukaan produk yang mencakup beberapa modalitas. Tekanan kompetitif dari HappyHorse untuk mengirim arsitektur terpadu sangat akut; Google sudah kehilangan puncak Arena sejak April. (Detail arsitektur di ulasan HappyHorse 1.0 kami.)

Penolak: Model omni terpadu sulit secara teknis, dan Google lebih konservatif daripada ByteDance atau Alibaba dalam mengirim arsitektur baru ke konsumen. Mengganti dua pipeline produksi sekaligus adalah langkah berisiko tinggi untuk keynote publik.

Di mana taruhannya

Pengamat industri terbagi sekitar 30/30/40 pada tiga teori. Pembacaan paling mungkin, berdasarkan pembingkaian UI dan lompatan kapabilitas, adalah hibrida antara Teori 2 dan 3: model baru yang dilatih di Gemini yang menangani setidaknya video dan audio secara terpadu, dengan Veo tetap hidup di Vertex AI untuk pelanggan enterprise yang butuh stabilitas. Enam hari lagi kita akan tahu.

Mengapa ini penting di luar Google

Omni menarik bukan karena Google merilis model video baru. Model video baru sekarang dirilis tiap bulan. Omni menarik karena apa artinya jika Teori 3 benar.

Industri video AI menghabiskan empat bulan pertama 2026 menyaksikan tesis model omni terpadu terbuka. Sora 2 runtuh dalam 84 hari dengan arsitektur pipeline terpisah. HappyHorse 1.0 merebut Arena #1 dalam 48 jam dengan arsitektur terpadu 15B parameter. Seedance 2.0 mengirim audio dan video bersama-sama via transformer dua cabang. Pusat gravitasi teknis bergeser ke model terpadu selama satu kuartal penuh, dan satu-satunya lab Barat besar yang belum merespons adalah Google.

Jika Omni adalah model terpadu sejati (Teori 3), maka Google mengejar tren arsitektur yang ditetapkan pemimpin Tiongkok. Itu memiliki tiga efek hilir:

Merek Veo dikonsolidasi atau pensiun. Menjalankan Veo berpipeline terpisah di samping Omni terpadu lebih dari 12 bulan tidak masuk akal. Pelanggan enterprise di Vertex AI akan mengharapkan jalur migrasi.
Kesenjangan arsitektur Barat/Tiongkok menutup. Pembingkaian «model Tiongkok punya keunggulan struktural karena memelopori arsitektur terpadu» melemah segera setelah Google mengirim miliknya.
Diferensiasi lapisan model terus terkompresi. Jika empat dari enam model teratas menggunakan arsitektur audio-video terpadu, lapisan model lebih terkomoditisasi dan lapisan agent menjadi satu-satunya titik diferensiasi yang berarti. Ini adalah tesis sentral tinjauan pertengahan 2026, dan Omni akan memperpanjangnya.

Jika Omni hanya rebranding (Teori 1), sebagian besar di atas tidak berlaku. Namun klip yang bocor menjadikan Teori 1 yang paling tidak mungkin dari tiga.

Yang harus diawasi di I/O — daftar enam butir

Saat keynote dimulai 19 Mei, inilah yang memberi tahu Anda teori mana yang benar. Tidak ada sinyal tunggal yang menentukan, tetapi bersama-sama mereka membentuk gambar yang jelas.

Sinyal 1: Apakah Google masih mengatakan «Veo» di panggung keynote?

Jika Veo mencolok absen dari segmen Gemini berorientasi konsumen, itu bukti Veo pensiun sebagai merek konsumen. Jika Veo masih disebut bersama Omni, keduanya berdampingan (Teori 2). Jika keduanya disebut tetapi Veo hanya untuk enterprise, migrasi sudah dimulai.

Sinyal 2: Apakah Omni menghasilkan audio dalam panggilan yang sama dengan video?

Satu panggilan API yang mengembalikan video + audio tersinkronisasi adalah tanda tangan teknis model omni terpadu (Teori 3). Dua panggilan API terpisah — video dulu, lalu panggilan kedua untuk sintesis audio — adalah pola arsitektur lama. Demo keynote kemungkinan akan menunjukkannya dengan jelas.

Sinyal 3: Apakah Omni juga menangani generasi gambar?

Jika Omni hanya diposisikan sebagai model video baru, cakupannya lebih sempit. Jika Omni menyerap generasi gambar — menggantikan Nano Banana Pro di dalam permukaan chat Gemini — itu bukti tesis multimodalitas yang lebih luas. Perhatikan apakah demo generasi gambar di keynote diatribusikan ke «Omni» atau tetap dimerek Nano Banana / Imagen.

Sinyal 4: Apakah ada API hari pertama?

Veo 3.1 diluncurkan di Vertex AI hari pertama keynote-nya. Jika Omni rilis dengan akses API publik dan harga di 19–20 Mei, itu diposisikan untuk penggunaan produksi langsung. Jika hanya rilis konsumen dengan akses API «nanti tahun ini», Google mengambil jalur retail-first Sora 2 — yang sudah kita lihat secara ekonomi tidak bekerja pada skala.

Sinyal 5: Bagaimana struktur harga?

Benchmark harga API publik kelas teratas saat ini sekitar $0,05/detik (HappyHorse 1.0) hingga $0,50/detik (Veo 3.1). Jika harga API Omni dekat HappyHorse, Google bersaing biaya; jika dekat Veo 3.1, kualitas. Pilihannya akan memberitahu pasar mana yang diprioritaskan Google.

Sinyal 6: Bagaimana Project Astra cocok?

Google sudah mendemokan Project Astra — asistennya yang multimodal real-time — di setiap I/O sejak 2024. Jika Astra mendadak jadi produk 19–20 Mei dan menggunakan Omni di bawahnya, itulah tesis «omni» yang lebih luas: bukan sekadar model video, tetapi permukaan AI multimodal real-time melintasi seluruh pengalaman Gemini.

Apa artinya ini bagi alur kerja Anda

Tiga hal praktis sembari menunggu keynote.

Jika Anda kreator yang menggunakan Gemini langsung

Belum perlu ubah apa pun. Omni di aplikasi Gemini konsumen, jika rilis minggu depan, akan secara sederhana menggantikan atau meningkatkan pengalaman generasi video yang ada. Formula «remix your videos, edit directly in chat» menyarankan alur kerja berbasis chat yang sudah Anda kenal, dengan model lebih cerdas di bawahnya. Tunggu pengumuman, coba kapabilitas baru, dan sesuaikan prompt berdasarkan apa yang benar-benar berubah.

Jika Anda membangun di atas Vertex AI

Perhatikan Sinyal 1 (merek Veo) dan Sinyal 4 (ketersediaan API) dengan cermat. Jika Veo pensiun sebagai merek konsumen tetapi tetap di Vertex AI untuk enterprise, integrasi Anda saat ini aman. Jika Omni sepenuhnya menggantikan Veo di Vertex AI, ada migrasi API di depan. Bagaimanapun, bangun integrasi Anda melalui lapisan agent atau orkestrasi sehingga pertukaran model jadi perubahan konfigurasi, bukan kode.

Jika Anda menjalankan tumpukan agent multi-model

Inilah situasi yang kami advokasikan dalam tulisan-tulisan terkini. (Lihat enam pergeseran dan hambatan format panjang.) Agent multi-model memperlakukan Omni sebagai generator lain untuk dirutekan — di samping Veo, Seedance, HappyHorse, Kling, Luma, dan Runway. Lapisan agent adalah tempat pertanyaan produktif hidup: shot mana dalam video 60 detik ini dirutekan ke model mana. Pengumuman Omni menambahkan satu opsi lagi ke tabel routing; itu tidak mengubah arsitektur yang Anda jalankan.

Inilah persis alasan kami menjaga tumpukan Genra agnostik-model: lapisan model terus bergerak, lapisan agent yang terakumulasi.

Kesimpulan, enam hari sebelum I/O

Yang kita tahu: ada model nyata bernama Omni di dalam tab video Gemini, ia menghasilkan keluaran yang secara terlihat lebih baik daripada Veo 3.1 publik pada fisika dan teks, dan Google membingkainya sebagai produk alur kerja berbasis chat. Yang kita tidak tahu: apakah itu rebranding, model paralel baru, atau sistem omni-modalitas terpadu.

Prediksi tunggal paling berguna adalah yang ketiga. Jika Teori 3 benar, kesenjangan arsitektur Barat/Tiongkok menutup 19 Mei, dan industri kembali ke perlombaan multipolar di mana semua lab besar menjalankan arsitektur audio-video terpadu. Jika Teori 3 salah, Google masih tertinggal dari garis depan arsitektur yang ditetapkan HappyHorse — dan gambaran kompetitif tetap seperti setelah peluncuran HappyHorse April.

Bagaimanapun, simpulan praktis sama: lapisan model terus bergerak, lapisan agent adalah tempat Anda harus membangun. Omni tidak mengubah itu. Entah memperkuatnya (menambahkan model komoditas lain ke tabel routing) atau tidak menggerakkan jarum (jika rebranding). Tim yang sudah memindahkan diferensiasi mereka ke infrastruktur agent akan menyerap apa pun yang Google umumkan 19-nya sebagai pembaruan konfigurasi. Tim yang masih bertaruh pada model pahlawan tunggal akan menghabiskan sisa Q2 untuk menata ulang.

Kami akan memperbarui artikel ini setelah keynote dengan yang benar-benar diumumkan.

FAQ

Apa itu Gemini Omni?

Gemini Omni adalah model generasi video AI yang belum diumumkan yang muncul melalui dua kebocoran di dalam antarmuka Gemini Google — string UI yang terlihat 2 Mei 2026 dan klip video yang dihasilkan, bocor dari akun Gemini Pro pada 11 Mei. Google belum secara resmi mengonfirmasi Omni per 13 Mei. Jendela pengumuman paling mungkin adalah Google I/O 2026 pada 19–20 Mei.

Apakah Gemini Omni akan menggantikan Veo?

Belum dikonfirmasi. Tiga teori bermain: Omni adalah rebranding konsumen Veo 3.1; Omni adalah model baru terpisah yang dilatih di Gemini yang hidup berdampingan dengan Veo; atau Omni adalah model omni-modalitas terpadu yang menggantikan baik Veo maupun tumpukan generasi gambar. Klip yang bocor menyarankan kapabilitas melampaui Veo 3.1 publik saat ini, yang membuat teori rebranding murni paling tidak mungkin.

Apa yang ditunjukkan klip yang bocor?

Dua klip mendapat perhatian terbanyak: adegan spaghetti di restoran tepi laut (mencolok karena menangani gerakan makanan berfisika tinggi) dan profesor menjabarkan pembuktian trigonometri di papan tulis (mencolok karena merender notasi matematika yang koheren lintas bingkai). Keduanya adalah area kelemahan yang dikenal untuk model video.

Kapan kita tahu apa Omni sebenarnya?

Google I/O 2026 pada 19–20 Mei. Perhatikan enam sinyal: apakah Veo masih disebut, apakah audio dihasilkan dalam panggilan yang sama dengan video, apakah generasi gambar dimasukkan, apakah ada API hari pertama, bagaimana harganya, dan bagaimana Project Astra cocok.

Apa yang harus saya lakukan sebagai kreator sebelum pengumuman?

Belum perlu ubah apa pun. Jika menggunakan Gemini konsumen, tunggu peluncuran. Jika di Vertex AI, perhatikan jalur migrasi API. Jika menjalankan tumpukan agent multi-model, perlakukan Omni sebagai generator lain untuk dirutekan.

Bagaimana Omni dibandingkan dengan HappyHorse 1.0?

HappyHorse 1.0 merebut Artificial Analysis Video Arena #1 dalam 48 jam saat diluncurkan 7 April 2026, dengan arsitektur audio-video terpadu 15B parameter. Jika Omni juga model omni terpadu, itu mewakili respons pertama Google ke arah arsitektural tersebut.

Tentang penulis
Chris Sherman meliput teknologi video AI dan alur produksi kreatif. Ikuti @GenraAI untuk liputan langsung selama keynote Google I/O 2026 19–20 Mei.