Dalam pengumuman resminya, Google menyebut Gemini Omni sebagai model yang dapat menciptakan apa pun dari berbagai jenis input, dengan fokus awal pada pembuatan video. Sistem ini memungkinkan pengguna menggabungkan berbagai sumber media sekaligus untuk menghasilkan video yang tetap memahami konteks dunia nyata berkat basis pengetahuan Gemini.
Versi pertama yang diperkenalkan adalah Gemini Omni Flash. Model tersebut dirancang untuk menghasilkan video dan audio secara simultan dengan pendekatan yang lebih cepat dan responsif. Tidak hanya membuat video dari prompt teks, Omni Flash juga dapat menggunakan foto, potongan video, maupun rekaman audio sebagai bahan dasar pembuatan konten baru.
Google menjelaskan bahwa Gemini Omni juga mendukung conversational editing. Pengguna dapat mengedit video melalui percakapan alami dengan AI tanpa harus menggunakan timeline editing tradisional seperti pada software video editor konvensional.
Berbeda dari model Veo yang lebih berfokus pada text-to-video, Gemini Omni disebut memiliki pemahaman multimodal lebih luas karena dilatih menggunakan data dan kemampuan reasoning Gemini. Pendekatan ini memungkinkan sistem memahami konteks visual, suara, serta hubungan antar objek secara lebih kompleks.
Menurut Google DeepMind, Gemini Omni Flash saat ini mampu menghasilkan video berdurasi hingga sekitar 10 detik. Namun, Google menyatakan durasi tersebut akan terus ditingkatkan pada pengembangan berikutnya.
Google juga menekankan bahwa Gemini Omni bukan sekadar alat video AI biasa. Sistem ini dikembangkan sebagai bagian dari visi AI generatif yang lebih menyatu dengan berbagai bentuk media sekaligus.
Ke depannya, Google berencana memperluas kemampuan model agar mendukung generasi gambar dan audio secara langsung dalam satu sistem terpadu. Dalam implementasinya, Gemini Omni akan hadir di beberapa layanan Google, termasuk aplikasi Gemini, platform kreatif Google Flow, serta YouTube Shorts.
Integrasi tersebut diharapkan dapat mempermudah proses pembuatan konten kreatif langsung dari ekosistem Google. Google juga memastikan seluruh konten video hasil AI dari Gemini Omni akan diberi watermark SynthID untuk membantu identifikasi konten sintetis dan meningkatkan transparansi penggunaan AI generatif.
Peluncuran Gemini Omni menjadi bagian dari strategi besar Google dalam memperluas era Agentic Gemini, yaitu fase ketika AI tidak hanya membantu menjawab pertanyaan, tetapi juga mampu membuat, mengedit, dan menyelesaikan pekerjaan kreatif secara lebih mandiri.
Cek Berita dan Artikel yang lain di
Google News