Rangkuman Google I/O 2026: Tidak Ada Veo 4 — Tapi Gemini Omni dan Spark Resmikan Lapisan Agent

· Chris Sherman

Selama dua bulan, seluruh industri video AI membahas Veo 4. Veo 4 tidak dirilis. Apa yang diumumkan Google di I/O 2026 lebih besar dan lebih aneh: model multimodal terpadu bernama Gemini Omni, agent cloud 24/7 bernama Spark, tier AI Ultra $100 yang me-reset patokan harga konsumen, dan sinyal jelas bahwa Google kini melihat lapisan agent sebagai pertarungan platform berikutnya. Berikut pembahasan lengkapnya.

Sundar Pichai naik panggung Shoreline Amphitheatre kemarin dan memberi industri video AI sesuatu yang tidak diduga. Tidak ada Veo 4. Tidak ada satu pun judul berlabel "Veo". Sebagai gantinya, ada sesuatu yang lebih menarik secara strategis: Gemini Omni, model multimodal yang menangani secara native generasi teks, gambar, audio, dan video dalam satu sistem; Gemini Spark, agent AI pribadi yang tinggal di VM cloud dan bertindak atas nama Anda 24 jam sehari; dan restrukturisasi harga yang menempatkan paket AI Ultra $100 di pusat taruhan AI konsumen Google.

Keynote ini menulis ulang skenario 12 bulan mendatang video AI. Di bawah ini semua yang Google umumkan, apa artinya secara nyata, dan di mana industri video AI berdiri pagi setelahnya.

Gemini Omni: Judul yang Tidak Diprediksi Siapa Pun

Pengumuman paling penting adalah Gemini Omni — seri model baru yang Google sebut sebagai sistem generasi multimodal terpadu sejati pertama dari perusahaan. Di mana lineup Google sebelumnya memisahkan kapabilitas antara Veo (video), Imagen (gambar), dan sistem lain yang dirangkai bersama, Omni menangani generasi teks, gambar, audio, dan video secara native dalam satu model.

Model publik pertama dalam kerangka Omni adalah Omni Flash. Ia menerima input gabungan teks, gambar, dan audio dan mengeluarkan video sinematik singkat dengan suara tersinkronisasi. Google mendemokan pengguna mengunggah gambar diam, mengucapkan instruksi keras, dan mendapatkan kembali adegan animasi dengan audio native yang merespons arahan lisan. Pengeditan bersifat percakapan — Anda menyempurnakan klip dengan mengatakan apa yang harus diubah, alih-alih menulis prompt baru dan menggenerasi ulang dari awal.

Tiga hal membuat Omni berbeda secara strategis dari garis Veo:

  • Satu model, bukan stack. Veo 3 sudah punya audio native, tapi stack kreatif Google yang lebih luas masih bergantung pada perangkaian model terpisah untuk generasi gambar, produksi audio, dan pengeditan. Omni melipat rantai itu. Implikasi strategisnya adalah Google percaya lompatan kualitas berikutnya datang dari pelatihan bersama lintas modalitas, bukan dari terus menskalakan model khusus video.
  • Generasi berdasarkan dunia. Demis Hassabis membingkai Omni sebagai bangunan di atas pekerjaan model dunia Google DeepMind. Argumennya adalah Omni menghasilkan video dengan koherensi spasial, temporal, dan fisik yang lebih kuat karena model dasar memiliki representasi internal dunia yang lebih kaya. Apakah output membuktikan ini dalam praktik adalah pertanyaan yang akan kami benchmark dalam kuartal mendatang.
  • Pengeditan sebagai kapabilitas kelas satu. Omni diposisikan bukan hanya sebagai generator tapi sebagai editor. Penyempurnaan percakapan, pertukaran adegan, dan operasi gaya remix merupakan bagian dari permukaan produk, bukan lapisan eksternal. Ini adalah pergeseran berarti dalam filosofi produk yang harus direspons pesaing.

Yang saat ini tidak dilakukan Omni: format panjang. Omni Flash adalah format pendek, dan Google eksplisit bahwa alur produksi yang lebih panjang dan canggih telah direncanakan tapi belum dirilis. Siapa pun yang berharap generasi naratif 60 detik sekali jadi masih menunggu.

Gemini Spark: Agent Pribadi 24/7 di Cloud

Jika Omni adalah judul yang salah dibaca sebagian besar komentator, Spark adalah pengumuman yang paling diremehkan.

Gemini Spark adalah agent AI pribadi yang tinggal di VM Google Cloud khusus, berjalan terus-menerus, dan bertindak atas nama Anda lintas produk Google dan daftar layanan pihak ketiga yang berkembang melalui Model Context Protocol (MCP). Deskripsi produk dalam kata-kata Google sendiri: agent yang dapat "memesan restoran, membuat pesanan Instacart, dan menyusun balasan kotak masuk Anda saat Anda tidur".

Signifikansi strategisnya sulit dilebih-lebihkan. Selama dua tahun, cerita AI konsumen Google adalah Gemini sebagai chatbot. Spark adalah Google secara eksplisit mengatakan bahwa chatbot adalah bingkai yang salah — bingkai yang benar adalah agent otonom yang beroperasi lintas aplikasi dan waktu. Agent membaca kotak masuk Anda, melakukan tindakan di alat Anda, merencanakan lintas layanan, dan melapor balik. Pengguna mendeskripsikan hasil; Spark menangani eksekusi.

Ini tesis yang sama yang sudah didebatkan industri video AI selama setahun terakhir, diterapkan ke produktivitas umum. Lapisan agent bukan lagi taruhan posisi startup. Sekarang itu taruhan posisi Google.

Harga penting di sini. Spark terkunci di balik paket AI Ultra $100/bulan baru dan dirilis dalam beta untuk pelanggan AS minggu depan. Hanya harganya saja sudah menandakan bahwa Google percaya ada populasi pengguna yang signifikan yang bersedia membayar sembilan kali lipat dari paket Gemini Pro $11 untuk mendapatkan agent yang benar-benar melakukan hal-hal.

Gemini 3.5: Pembaruan Foundation

Di bawah pengumuman Omni dan Spark ada penyegaran model foundation. Gemini 3.5 Flash diluncurkan kemarin di seluruh aplikasi Gemini, Search, Antigravity, dan Gemini API. Klaim Google: ia melampaui Gemini 3.1 Pro pada benchmark coding, agentic, dan multimodal sambil berjalan sekitar 4x kecepatan token output model frontier yang sebanding.

Gemini 3.5 Pro diumumkan tapi belum tersedia umum. Dalam pengujian dan rilis bulan depan.

Polanya lintas Flash, Pro, Omni, dan Spark konsisten: setiap produk yang Google umumkan di I/O dibangun di atas jalur kapabilitas agentic. Mengikuti instruksi lebih cepat, konteks efektif lebih panjang, penggunaan alat lebih baik, dan eksekusi multi-langkah lebih andal. Lapisan model dibentuk untuk melayani lapisan agent di atasnya.

Antigravity 2.0: Cerita Developer

Antigravity adalah platform pengembangan agent Google. Kemarin ia menerima upgrade 2.0 yang berfokus pada orkestrasi — memungkinkan developer menyusun, menjadwalkan, dan mengawasi beberapa agent yang berinteraksi satu sama lain dan dengan alat eksternal.

Relevansi untuk video AI tidak langsung tapi nyata. Seiring lebih banyak alat video AI bergeser dari pembungkus model tunggal ke pipeline yang benar-benar terorkestrasi, infrastruktur dasar untuk menjalankan, memantau, dan men-debug orkestrasi tersebut menjadi ketergantungan fundamental. Antigravity 2.0 adalah Google mencoba memiliki lapisan infrastruktur itu dengan cara yang sama ia memiliki lapisan model di bawahnya.

Apakah pembangun agent independen akan bergantung pada infrastruktur Google atau membangun sendiri adalah salah satu pertanyaan terbuka yang lebih menarik yang muncul dari keynote ini. Jawabannya menentukan berapa banyak ekonomi agent yang ditangkap Google versus seberapa banyak tetap benar-benar terbuka.

Paket AI Ultra $100: Reset Lantai Harga

Google AI Ultra sekarang mulai $100 per bulan, dengan tier lebih tinggi seharga $200. Paket Ultra sebelumnya $250. Tier entri baru mencakup akses beta Gemini Spark, batas penggunaan aplikasi Gemini 5x dari tier Pro $20, penyimpanan cloud 20TB, dan YouTube Premium.

Pembacaan strategisnya lurus: Google memberi harga AI konsumen premium secara agresif untuk menangkap early adopter yang akan mendefinisikan bagaimana rasanya produk agent. Pada $100/bulan, Spark sekarang berkompetisi langsung dengan ujung atas ChatGPT Pro dan tier konsumen Claude. Fitur agent adalah pembeda — dan ini fitur yang harus diluncurkan versinya oleh pesaing dalam 12 bulan ke depan atau menyerahkan kategori agent produktivitas.

Untuk kreator dan operator, pertanyaan relevan adalah apakah $100/bulan untuk agent pribadi mempercepat pekerjaan secara berarti. Jawaban awal yang jujur: bergantung sepenuhnya pada apakah beta Spark menepati demo. Demo adalah demo. Kita akan tahu dalam 90 hari.

Android XR dan Project Aura: Permukaan Hardware

Google juga meluncurkan perangkat "kacamata cerdas" baru, termasuk Project Aura, kacamata pintar kelas XR yang dikembangkan bersama Xreal. Setidaknya tiga kemitraan kacamata pintar diluncurkan tahun ini, memposisikan Google di antara Ray-Bans audio-first dari Meta dan headset XR penuh.

Sudut AI: ini bertenaga Gemini. Konteks visual langsung, interaksi suara, dan tindakan agentic — semuanya dapat dikenakan. Untuk video AI, implikasinya hilir tapi nyata. Kamera yang dapat dikenakan dengan konteks Gemini menjadi perangkat input permanen untuk pembuatan video, baik untuk penangkapan referensi maupun pengeditan langsung saat bergerak. Kita 18 bulan jauhnya dari ini penting untuk alur produksi. Kita nol bulan jauhnya dari ini penting untuk demo konsumen.

Android 17: OS sebagai Lapisan Intelijen

Pembaruan Android dari Sameer Samat memposisikan OS itu sendiri sebagai berubah "dari sistem operasi menjadi sistem intelijen". Bingkai ini — Gemini memahami konteks lintas aplikasi, mengantisipasi kebutuhan, dan mengambil tindakan atas nama pengguna — adalah tesis lapisan agent yang sama diterapkan ke platform mobile.

Fitur konkret kurang penting daripada bingkai. Google berkomitmen pada masa depan di mana lapisan OS dan lapisan agent menyatu menjadi satu stack, semua berjalan di model foundation Gemini. Untuk developer, ini berarti desain aplikasi sadar-agent bukan lagi pola opsional; ini asumsi dasar yang menjadi dasar pembangunan platform Google.

Yang Tidak Dirilis: Absennya Veo 4

Pengumuman yang paling diharapkan dan tidak terjadi: Veo 4. Tidak ada peluncuran Veo 4, tidak ada timeline Veo 4, dan tidak ada konfirmasi eksplisit bahwa Veo sedang dihentikan demi lini Omni.

Pembacaan yang paling mungkin: Google mengkonsolidasikan upaya video generatifnya di bawah Omni alih-alih melanjutkan pengembangan Veo paralel. Omni Flash diposisikan sebagai titik awal baru. Veo 3.1 tetap menjadi opsi kelas produksi untuk kasus penggunaan yang belum dicover Omni Flash — terutama generasi single-shot lebih panjang, output 4K, dan konsistensi karakter ID-embedding, yang tidak satu pun didukung Omni Flash saat ini.

Untuk industri video AI yang lebih luas, ini pergeseran berarti. Delapan belas bulan percakapan "apa yang akan Veo lakukan selanjutnya" telah digantikan oleh "apa itu Omni". Operator dengan otomasi spesifik Veo perlu mengevaluasi apakah menunggu Omni matang pada format panjang, atau mempertahankan produksi di Veo 3.1 di masa depan yang dapat diperkirakan. Mungkin keduanya, secara paralel, pada tipe konten yang berbeda.

Apa Artinya untuk Operator Video AI

Mundur dari pengumuman individual, tiga hal berubah kemarin yang akan membentuk video AI untuk tahun depan.

Pertama, strategi model menjadi lebih berantakan dengan cara yang berguna. Omni adalah taruhan multimodal terpadu, tapi Omni Flash hanya format pendek. Veo 3.1 masih melakukan pekerjaan lebih berat untuk klip lebih panjang dan resolusi lebih tinggi. Pipeline produksi nyata akan menggunakan keduanya, merouting di antara mereka, dan beralih dinamis saat Omni matang. Lapisan agent adalah tempat logika routing itu tinggal.

Kedua, pemikiran lapisan agent sekarang konsensus. Spark adalah Google mengatakan keras bahwa bingkai chatbot adalah langkah transisi dan tujuannya adalah agent otonom. Setiap tim produk AI konsumen dan perusahaan yang telah memperdebatkan apakah akan membangun "asisten" atau "agent" telah diberi jawaban yang sudah selesai. Lapisan agent adalah tempat kompetisi bergerak.

Ketiga, pengeditan percakapan mengubah alur kreator. Penekanan Omni pada pengeditan dalam-chat — menyempurnakan klip dengan mendeskripsikan apa yang harus diubah — melipat apa yang dulu adalah proses dua langkah hasilkan-lalu-edit. Untuk kreator video AI, ini penyederhanaan UX berarti yang diharapkan dapat ditandingi pesaing. Pipeline Genra sudah mendukung iterasi percakapan; harapkan setiap platform video AI serius merilis versi ini dalam enam bulan.

Apa yang Akan Genra Lakukan Selanjutnya

Beberapa catatan jujur tentang ke mana Genra akan pergi dari sini.

Omni Flash akan diintegrasikan begitu tersedia melalui Gemini API. Lapisan agent yang dibangun Genra dirancang untuk menjadi agnostik model justru agar penambahan seperti Omni menjadi perubahan backend, bukan perubahan alur kerja. Pengguna akan melihat output format pendek yang lebih baik saat logika routing mulai memilih Omni Flash untuk shot yang paling baik dikerjakannya. Kasus penggunaan format panjang, 4K, dan konsistensi tinggi terus berjalan di Veo dan Seedance.

Pembingkaian Spark sebagai agent cloud 24/7 adalah validasi terdekat yang bisa kami minta untuk tesis lapisan agent. Genra adalah agent spesifik domain untuk produksi video. Spark adalah agent serbaguna untuk produktivitas pribadi. Keduanya hidup berdampingan dengan nyaman — sama cara agent CRM dan agent coding hidup berdampingan dengan asisten produktivitas umum.

Bingkai kompetitif yang lebih besar: dengan Google sekarang berkomitmen pada lapisan agent di tingkat platform, pertanyaan untuk setiap startup video AI bukan lagi "apakah agent adalah masa depan" — itu sudah selesai. Pertanyaannya adalah agent spesifik domain mana yang menjadi pilihan tepercaya dalam kategori mereka. Untuk video AI, itu pertanyaan yang Genra dibangun untuk dijawab.

Poin Kunci

  • Google I/O 2026 tidak merilis Veo 4. Pengumuman video utama adalah Gemini Omni, model multimodal terpadu yang menangani generasi teks, gambar, audio, dan video dalam satu sistem, dengan Omni Flash sebagai model publik pertama.
  • Gemini Spark, agent pribadi cloud 24/7 yang bertindak lintas produk Google dan layanan pihak ketiga yang terhubung MCP, adalah pengumuman yang paling penting secara strategis. Ia mengikat Google pada lapisan agent sebagai pertarungan platform berikutnya.
  • Gemini 3.5 Flash diluncurkan kemarin; Gemini 3.5 Pro dalam pengujian untuk bulan depan. Setiap pembaruan foundation dibingkai seputar kapabilitas agentic, bukan hanya intelijen.
  • AI Ultra diberi harga ulang ke $100/bulan entri ($200 tier teratas), turun dari Ultra $250 sebelumnya. Akses beta Spark dibatasi ke tier $100 untuk pelanggan AS minggu depan.
  • Antigravity 2.0 memperluas platform pengembangan agent Google dengan tooling orkestrasi — langkah infrastruktur untuk pembangun agent.
  • Android XR dan kacamata pintar Project Aura, ditambah pembingkaian Android 17 "sistem intelijen", memperluas tesis agent ke lapisan hardware dan OS.
  • Omni Flash hanya format pendek. Veo 3.1 tetap menjadi alat produksi untuk video yang lebih panjang, resolusi lebih tinggi, dan ID-konsisten. Pipeline nyata akan merouting di antara keduanya.
  • Pengeditan percakapan sebagai kapabilitas kelas satu di Omni adalah pergeseran alur kerja yang harus ditandingi pesaing dalam enam bulan.
  • Genra mengintegrasikan Omni Flash segera setelah akses API tersedia, dengan pengguna melihat kenaikan kualitas pada shot pendek yang dirouting secara diam-diam. Pekerjaan format panjang, 4K, dan kritis-konsistensi terus berjalan di Veo dan Seedance.

Pertanyaan yang Sering Diajukan

Apakah Google mengumumkan Veo 4 di I/O 2026?

Tidak. Tidak ada pengumuman Veo 4. Google sebagai gantinya memperkenalkan seri model Gemini Omni, dengan Omni Flash sebagai model pertama yang tersedia publik. Interpretasi yang paling mungkin adalah Google mengkonsolidasikan kerja video generatif di bawah kerangka Omni alih-alih melanjutkan generasi Veo paralel.

Apa itu Gemini Omni?

Gemini Omni adalah seri model multimodal terpadu baru Google, mampu menghasilkan teks, gambar, audio, dan video secara native dari input gabungan. Omni Flash adalah model publik pertama, berfokus pada video format pendek dengan audio native tersinkronisasi dan pengeditan percakapan.

Apa itu Gemini Spark?

Gemini Spark adalah agent AI pribadi cloud 24/7 yang berjalan di VM Google khusus, terintegrasi dengan produk Google dan 30+ layanan pihak ketiga melalui MCP, dan mengambil tindakan atas nama pengguna — memesan, memesan, menyusun, dan mengelola tugas. Diluncurkan dalam beta untuk pelanggan AI Ultra AS minggu depan.

Berapa biaya Google AI Ultra di 2026?

Tier entri AI Ultra baru adalah $100 per bulan, turun dari $250. Tier lebih tinggi seharga $200. Paket $100 mencakup akses beta Gemini Spark, batas penggunaan aplikasi Gemini 5x tier Pro, penyimpanan cloud 20TB, dan YouTube Premium.

Apa itu Gemini 3.5 Flash?

Gemini 3.5 Flash adalah model foundation tier cepat terbaru Google, diluncurkan 19 Mei 2026. Google mengklaim ia melampaui Gemini 3.1 Pro pada benchmark coding, agentic, dan multimodal sambil berjalan sekitar 4x kecepatan output model frontier yang sebanding. Tersedia di aplikasi Gemini, Search, Antigravity, dan Gemini API.

Apa itu Antigravity 2.0?

Antigravity adalah platform pengembangan agent Google. Rilis 2.0 menambahkan tooling orkestrasi sehingga developer dapat menyusun, menjadwalkan, dan mengawasi beberapa agent yang berinteraksi. Ia menargetkan lapisan infrastruktur di bawah produk agent.

Apa yang Google umumkan tentang kacamata pintar di I/O 2026?

Google meluncurkan perangkat "kacamata cerdas" kelas Android XR baru, termasuk Project Aura yang dikembangkan bersama Xreal. Setidaknya tiga kemitraan kacamata pintar diluncurkan musim gugur 2026, memposisikan Google di antara kacamata audio-first dan headset XR penuh. Semuanya bertenaga Gemini.

Akankah Genra mengintegrasikan Gemini Omni?

Ya. Genra dibangun sehingga mengintegrasikan model baru adalah perubahan backend, bukan perubahan alur kerja. Omni Flash akan ditambahkan ke logika routing agent segera setelah tersedia melalui Gemini API. Pengguna akan melihat peningkatan kualitas pada output format pendek tanpa mengubah cara mereka bekerja.

Apakah Veo 3.1 masih tersedia setelah I/O 2026?

Ya. Veo 3.1 tetap tersedia melalui Google AI Studio dan Vertex AI. Ia terus menjadi opsi kelas produksi untuk klip yang lebih panjang, output 4K, dan kasus penggunaan yang membutuhkan konsistensi karakter melalui ID-embedding — kapabilitas yang belum didukung Omni Flash.

Apa arti I/O 2026 untuk kreator video AI?

Tiga pergeseran. Pertama, strategi model sekarang membentang melintasi Omni untuk format pendek multimodal terpadu dan Veo 3.1 untuk format panjang dan resolusi tinggi — pipeline nyata akan merouting di antara keduanya. Kedua, pemikiran lapisan agent sekarang konsensus di tingkat platform, bukan hanya taruhan posisi startup. Ketiga, pengeditan percakapan menjadi kapabilitas dasar yang harus ditandingi semua alat video AI.


Tentang Penulis
Chris Sherman meliput teknologi video AI, arsitektur agent, dan bisnis produksi kreatif. Ikuti @GenraAI untuk peliputan berkelanjutan lanskap video AI pasca-I/O dan sidang MiniMax (29 Mei).