Ilustrasi: NVIDIA
Ilustrasi: NVIDIA

NVIDIA Blackwell Pangkas Biaya Inferensi AI Hingga 10 Kali Lipat

Mohamad Mamduh • 17 Februari 2026 13:07
Ringkasnya gini..
  • Konsep yang diusung NVIDIA disebut sebagai tokenomics.
  • Efisiensi tersebut diperkirakan menghemat lebih dari 30 juta menit kerja manual tenaga medis.
  • Platform penerus, Rubin, dijanjikan akan menghadirkan peningkatan performa dan efisiensi biaya hingga sepuluh kali lipat.
Jakarta: NVIDIA mengkalim platform Blackwell mampu memangkas biaya inferensi AI hingga sepuluh kali lipat melalui optimalisasi model open source yang dijalankan di atas arsitektur terbaru. Efisiensi ini membuka peluang besar bagi berbagai sektor industri untuk mengadopsi AI dengan biaya yang jauh lebih terjangkau.
 
Konsep yang diusung NVIDIA disebut sebagai “tokenomics”, yakni perbandingan biaya per token yang mirip dengan logika mesin cetak: semakin besar skala produksi, semakin rendah biaya per unit. Dengan Blackwell, biaya per token dapat ditekan drastis, sementara performa tetap terjaga.
 
Dampak nyata ini sudah terlihat di berbagai bidang. Dalam sektor kesehatan, kolaborasi Baseten dan Sully.ai berhasil menurunkan biaya operasional hingga 90 persen sekaligus mempercepat waktu respons dokter sebesar 65 persen.

Efisiensi tersebut diperkirakan menghemat lebih dari 30 juta menit kerja manual tenaga medis. Di industri game, DeepInfra bersama Latitude yang mengembangkan AI Dungeon dan Voyage mencatat penurunan biaya dari 20 sen per juta token pada generasi Hopper menjadi hanya 5 sen di Blackwell. Hal ini memungkinkan pengalaman bermain tetap lancar meski terjadi lonjakan aktivitas pengguna.
 
Sementara itu, Fireworks AI bersama Sentient Foundation memanfaatkan Blackwell untuk mendukung multi-agent workflow yang sangat menuntut komputasi. Hasilnya, biaya berkurang antara 25 hingga 50 persen, memungkinkan peluncuran viral dengan 1,8 juta pengguna dalam 24 jam dan lebih dari 5,6 juta kueri dalam sepekan.
 
Di ranah layanan pelanggan, Together AI bersama Decagon menghadirkan agen suara dengan waktu respons di bawah 400 milidetik. Biaya per kueri turun hingga enam kali lipat berkat penerapan teknik seperti speculative decoding, caching, dan auto-scaling.
 
Keberhasilan Blackwell tidak lepas dari strategi extreme codesign, yaitu integrasi erat antara perangkat keras, perangkat lunak, jaringan, dan framework inferensi. NVIDIA menegaskan bahwa inovasi ini hanyalah langkah awal. Platform penerus, Rubin, dijanjikan akan menghadirkan peningkatan performa dan efisiensi biaya hingga sepuluh kali lipat.
 
Efisiensi biaya yang drastis diyakini akan mempercepat transformasi digital di berbagai industri, sekaligus memperkuat posisi AI sebagai teknologi kunci masa depan.
 
Cek Berita dan Artikel yang lain di
Google News
(MMI)




TERKAIT

BERITA LAINNYA