Ilustrasi: NVIDIA

NVIDIA Research Bawa Terobosan AI Generatif Multimodal di ICLR 2025

Mohamad Mamduh • 29 April 2025 13:18

Jakarta: NVIDIA Research menampilkan deretan inovasi terbaru di International Conference on Learning Representations (ICLR) yang berlangsung di Singapura tanggal 24–28 April 2025. Lebih dari 70 makalah penelitian hasil tim NVIDIA dipresentasikan, mengungkap terobosan di bidang kecerdasan buatan generatif multimodal.

Pendekatan full?stack yang menggabungkan infrastruktur komputasi tinggi, prosesor akselerasi, dan teknologi jaringan canggih dengan algoritma inovatif semakin memantapkan posisi NVIDIA sebagai pionir di dunia AI.

Salah satu inovasi unggulan adalah model Fugatto, sebuah sistem AI generatif audio yang sangat fleksibel. Fugatto mampu menciptakan dan mengubah campuran musik, suara, serta efek audio hanya dari perintah berbasis teks dan file audio. Keunggulan ini memberikan alternatif kreatif bagi para seniman dan produser musik dalam menghasilkan konten hiburan dan media digital yang segar.

Selain itu, penelitian model HAMSTER menonjol dengan desain hierarkis pada sistem vision-language-action. Pendekatan ini memungkinkan transfer pengetahuan menggunakan data fine?tuning yang mudah diperoleh, tanpa harus mengumpulkan data langsung dari robot. Hasilnya, robot dapat meningkatkan kemampuan dalam mengatasi berbagai skenario pengujian, sehingga efisiensi otomasi dan manufaktur turut meningkat.

Keluarga model bahasa Hymba hadir dengan arsitektur hibrida yang mengombinasikan keunggulan transformer dan state space models, menghasilkan recall tinggi dan penyusunan konteks yang efisien. Dengan peningkatan throughput hingga tiga kali lipat dan pengurangan penggunaan cache hampir empat kali lipat, Hymba menawarkan performa optimal untuk aplikasi industri yang menuntut kecepatan dan ketepatan.

Pipeline pelatihan LongVILA dirancang untuk memahami video panjang dengan mendalam. Sistem ini memecahkan tantangan komputasi dan memori melalui parallel processing, dengan kemampuan memproses hingga 2 juta token menggunakan 256 GPU. LongVILA berhasil mencetak performa terbaik di sembilan benchmark video ternama, menjadikannya solusi andalan untuk analisis multimedia dan pemrosesan video berdurasi panjang.

Model LLaMaFlex mengusung teknik zero?shot generation guna menciptakan keluarga model bahasa terkompresi dari satu model besar. Metode ini menghasilkan model dengan performa setara atau lebih baik dibandingkan teknik pruning maupun knowledge distillation, sehingga biaya pelatihan dapat ditekan secara signifikan.

Di bidang bioteknologi, model Proteina memanfaatkan transformer berparameter tinggi untuk menghasilkan struktur protein yang beragam dan dapat didesain ulang, membuka peluang inovasi di sektor kesehatan dan sains hayati.

Framework SRSA dikembangkan agar robot dapat memanfaatkan perpustakaan keterampilan yang sudah ada. Dengan memprediksi keterampilan yang paling relevan, SRSA meningkatkan tingkat keberhasilan zero?shot hingga 19 persen dalam menghadapi tugas baru.

Sementara itu, model STORM memungkinkan rekonstruksi representasi 3D dinamis dari adegan luar ruangan, seperti pergerakan mobil dan gemericik daun. Proses rekonstruksi yang hanya memerlukan 200 milidetik membuka potensi besar dalam pengembangan kendaraan otonom serta aplikasi realitas campuran.

Melalui kontribusi riset di ICLR 2025, NVIDIA tidak hanya menunjukkan keunggulan inovasi teknologi, tetapi juga membuka jalan bagi penerapan praktis AI di berbagai sektor industri, menyongsong era digital yang semakin maju dan terintegrasi.

Jadikan Medcom.id sumber informasi pilihan Anda

(MMI)