Ilustrasi: NVIDIA Cosmos
Ilustrasi: NVIDIA Cosmos

NVIDIA Cosmos Percepat Pengembangan AI Fisik

Mohamad Mamduh • 08 Januari 2025 11:40
Jakarta: Dalam ajang CES 2025, NVIDIA mengumumkan Cosmos, sebuah platform yang terdiri dari model fondasi dunia generatif, tokenize, guardrails, dan pipa pemrosesan video canggih yang dipercepat. Platform ini dibangun untuk memajukan pengembangan sistem AI fisik seperti kendaraan otonom (AV) dan robot.
 
Model AI fisik mahal untuk dikembangkan, membutuhkan sejumlah besar data dan pengujian dunia nyata. Model fondasi dunia Cosmos, atau WFM, menawarkan pengembang cara mudah untuk menghasilkan sejumlah besar data sintetis berbasis fisika fotorealis untuk melatih dan mengevaluasi model mereka yang ada. Pengembang juga dapat membangun model kustom dengan menyempurnakan Cosmos WFM.
 
Model Cosmos akan tersedia di bawah lisensi model terbuka untuk mempercepat pekerjaan komunitas robotika dan AV. Pengembang dapat melihat pratinjau model pertama di katalog NVIDIA API, atau mengunduh rumpun model dan kerangka kerja penyempurnaan dari katalog NGC atau Hugging Face.
 
Perusahaan robotika dan otomotif terkemuka, termasuk 1X, Agile Robots, Agility, Figure AI, Foretellix, Fourier, Galbot, Hillbot, IntBot, Neura Robotics, Skild AI, Virtual Incision, Waabi, dan XPENG, bersama dengan ridesharing raksasa Uber termasuk yang pertama mengadopsi Cosmos.
 
"Momen ChatGPT untuk robotika akan datang. Seperti bahasa besar, model fondasi dunia sangat penting untuk memajukan pengembangan robot dan AV, namun tidak semua pengembang memiliki keahlian dan sumber daya untuk melatih mereka sendiri," kata Jensen Huang, pendiri dan CEO NVIDIA. "Kami menciptakan Cosmos untuk mendemokratisasi AI fisik dan menempatkan robotika umum dalam jangkauan setiap pengembang."
 
Model Open World Foundation untuk Mempercepat Gelombang AI Berikutnya
Rangkaian model terbuka NVIDIA Cosmos berarti pengembang dapat menyesuaikan WFM dengan kumpulan data, seperti rekaman video perjalanan AV atau robot yang menavigasi gudang, sesuai dengan kebutuhan aplikasi target mereka.
 
Cosmos WFM dibuat khusus untuk penelitian dan pengembangan AI fisik, dan dapat menghasilkan video berbasis fisika dari kombinasi input, seperti teks, gambar, dan video, serta sensor robot atau data gerak.
 
Model ini dibangun untuk interaksi berbasis fisik, keabadian objek, dan generasi berkualitas tinggi dari lingkungan industri simulasi — seperti gudang atau pabrik — dan lingkungan mengemudi, termasuk berbagai kondisi jalan.
 
Dalam pidato pembukaannya di CES, pendiri dan CEO NVIDIA Jensen Huang memamerkan cara pengembang AI fisik dapat menggunakan model Cosmos, termasuk untuk:
1. Pencarian dan pemahaman video, memungkinkan pengembang untuk dengan mudah menemukan skenario pelatihan tertentu, seperti kondisi jalan bersalju atau kemacetan gudang, dari data video.
 
2. Pembuatan data sintetis 3D-ke-nyata yang dapat dikontrol, menggunakan model Cosmos untuk menghasilkan video fotoreal dari skenario 3D terkontrol yang dikembangkan di platform NVIDIA Omniverse.

3. Pengembangan dan evaluasi model AI fisik, baik membangun model kustom pada model dasar, meningkatkan model menggunakan Cosmos untuk pembelajaran penguatan atau menguji bagaimana kinerjanya diberikan skenario simulasi tertentu.
 
4. Foresight — kemampuan untuk memprediksi hasil dari tindakan potensial model AI fisik berikutnya — untuk membantunya memilih tindakan terbaik untuk diikuti.
 
5. Simulasi multiverse, menggunakan Cosmos dan Omniverse untuk menghasilkan setiap kemungkinan hasil di masa depan yang dapat diambil model AI untuk membantunya memilih jalur terbaik dan paling akurat. 
 
Alat Pengembangan Model Dunia Tingkat Lanjut
Membangun model AI fisik memerlukan petabyte data video dan puluhan ribu jam komputasi untuk memproses, mengkurasi, dan memberi label data tersebut. Untuk membantu menghemat biaya besar dalam kurasi data, pelatihan, dan penyesuaian model, fitur Cosmos:
 
Pipa pemrosesan data yang dipercepat NVIDIA AI dan CUDA, didukung oleh NeMo Curator, yang memungkinkan pengembang untuk memproses, mengkurasi, dan memberi label 20 juta jam video dalam empat belas hari menggunakan platform NVIDIA Blackwell, alih-alih 3,4 tahun menggunakan pipeline khusus CPU.
 
NVIDIA Cosmos Tokenizer, tokenizer visual canggih untuk mengubah gambar dan video menjadi token. Ini memberikan kompresi total 8x lebih banyak dan pemrosesan 12x lebih cepat daripada tokenizer terkemuka saat ini.
 
Kerangka kerja NVIDIA NeMo untuk pelatihan, penyesuaian, dan pengoptimalan model yang sangat efisien. 
 
Industri AI Fisik Terbesar di Dunia Mengadopsi Cosmos
1X, sebuah perusahaan robot AI dan humanoid, meluncurkan  dataset 1X World Model Challenge menggunakan Cosmos Tokenizer. XPENG akan menggunakan Cosmos untuk mempercepat pengembangan robot humanoidnya. Dan Hillbot dan SkildAI menggunakan Cosmos untuk mempercepat pengembangan robot serba guna mereka.
 
"Kelangkaan dan variabilitas data adalah tantangan utama untuk keberhasilan pembelajaran di lingkungan robot," kata Pras Velagapudi, chief technology officer, di Agility. "Kemampuan teks, gambar, dan video ke dunia Cosmos memungkinkan kami untuk menghasilkan dan menambah skenario fotorealistik dalam berbagai tugas yang dapat kami gunakan untuk melatih model tanpa memerlukan banyak pengambilan data dunia nyata yang mahal."
 
Raksasa ridesharing global Uber bermitra dengan NVIDIA untuk mempercepat mobilitas otonom. Kumpulan data mengemudi yang kaya dari Uber, dikombinasikan dengan fitur platform Cosmos dan NVIDIA DGX Cloud, akan membantu mitra AV membangun model AI yang lebih kuat bahkan lebih efisien. 
 
"AI generatif akan menggerakkan masa depan mobilitas, membutuhkan data yang kaya dan komputasi yang sangat kuat," kata Dara Khosrowshahi, CEO Uber. "Dengan bekerja sama dengan NVIDIA, kami yakin bahwa kami dapat membantu meningkatkan garis waktu untuk solusi mengemudi otonom yang aman dan terukur untuk industri ini."
 
Mengembangkan AI yang Terbuka, Aman, dan Bertanggung Jawab
NVIDIA Cosmos dikembangkan sejalan dengan  prinsip AI tepercaya NVIDIA , yang memprioritaskan privasi, keselamatan, keamanan, transparansi, dan mengurangi bias yang tidak diinginkan.
 
AI yang dapat dipercaya sangat penting untuk mendorong inovasi dalam komunitas pengembang dan menjaga kepercayaan pengguna. NVIDIA berkomitmen untuk AI yang aman dan dapat dipercaya, sejalan dengan komitmen AI sukarela Gedung Putih dan inisiatif keselamatan AI global lainnya.
 
Platform Cosmos terbuka mencakup pagar pembatas atau guardrail yang dirancang untuk mengurangi teks dan gambar berbahaya, menampilkan alat untuk meningkatkan perintah teks untuk akurasi. Video yang dibuat dengan  model autoregresif dan difusi Cosmos  pada katalog NVIDIA API menyertakan watermark tak terlihat untuk mengidentifikasi konten yang dihasilkan AI, membantu mengurangi kemungkinan misinformasi dan kesalahan atribusi.
 
NVIDIA mendorong pengembang untuk mengadopsi praktik AI yang dapat dipercaya dan lebih meningkatkan solusi pagar pembatas dan watermarking untuk aplikasi mereka.
 
Ketersediaan
Cosmos WFM sekarang tersedia di bawah lisensi model terbuka NVIDIA di Hugging Face dan katalog NVIDIA NGC. Model Cosmos akan segera tersedia sebagai layanan mikro NVIDIA NIM yang dioptimalkan sepenuhnya.
 
Pengembang dapat mengakses NVIDIA NeMo Curator untuk pemrosesan video yang dipercepat dan menyesuaikan model dunia mereka sendiri dengan NVIDIA NeMo. NVIDIA DGX™ Cloud menawarkan cara cepat dan mudah untuk menerapkan model-model ini, dengan dukungan perusahaan yang tersedia melalui  platform perangkat lunak NVIDIA AI Enterprise.
 
NVIDIA juga mengumumkan model bahasa besar NVIDIA Llama Nemotron baru dan model bahasa visi NVIDIA Cosmos Nemotron  yang dapat digunakan pengembang untuk kasus penggunaan AI perusahaan di bidang kesehatan, layanan keuangan, manufaktur, dan banyak lagi.
 
Cek Berita dan Artikel yang lain di
Google News
(MMI)




TERKAIT

BERITA LAINNYA

social
FOLLOW US

Ikuti media sosial medcom.id dan dapatkan berbagai keuntungan