Foto: NVIDIA
Foto: NVIDIA

NVIDIA Blackwell Ultra Pecahkan Rekor Baru di MLPerf Inference v5.1

Mohamad Mamduh • 22 September 2025 16:07
Jakarta: NVIDIA kembali mencatatkan tonggak penting dalam dunia kecerdasan buatan dengan memperkenalkan arsitektur Blackwell Ultra pada ajang benchmark industri MLPerf Inference v5.1.
 
Sistem GB300 NVL72 yang berbasis Blackwell Ultra berhasil memecahkan rekor kinerja inferensi, terutama pada model bahasa besar dan aplikasi AI generatif yang semakin kompleks. Kehadiran ini hanya berselang enam bulan setelah debut Blackwell generasi sebelumnya, menunjukkan laju inovasi yang sangat cepat.
 
Pertumbuhan model bahasa besar dengan ratusan miliar parameter, ditambah kemampuan penalaran yang menghasilkan banyak token perantara sebelum jawaban akhir, menuntut performa komputasi yang jauh lebih tinggi.

MLPerf Inference v5.1 menghadirkan sejumlah skenario baru, termasuk DeepSeek-R1 dengan 671 miliar parameter, Llama 3.1 405B, Llama 3.1 8B, serta model pengenalan suara Whisper. Dalam semua benchmark baru ini, Blackwell Ultra mencatatkan rekor performa per GPU, sekaligus mempertahankan dominasinya pada benchmark yang sudah ada.
 
Dibandingkan dengan sistem GB200 NVL72, Blackwell Ultra memberikan peningkatan hingga 45% kinerja per GPU, sementara dibandingkan dengan sistem berbasis Hopper, throughput per GPU melonjak sekitar 5 kali lipat. Peningkatan ini didukung oleh sejumlah inovasi teknis, seperti 1,5 kali lebih tinggi NVFP4 AI compute, 2 kali lebih tinggi compute pada lapisan atensi, serta 1,5 kali kapasitas memori HBM3e.
 
Keberhasilan tersebut juga ditopang oleh optimalisasi perangkat lunak. NVIDIA menggunakan NVFP4 quantization untuk memperkecil ukuran model tanpa mengorbankan akurasi, FP8 key-value cache untuk mengurangi kebutuhan memori, serta teknik paralelisme baru yang mengombinasikan expert parallelism dan data parallelism.
 
Selain itu, teknologi ADP Balance memastikan distribusi beban kerja yang seimbang antar-GPU, sementara CUDA Graphs menekan overhead CPU sehingga proses inferensi lebih efisien.
 
Salah satu terobosan penting adalah penerapan disaggregated serving pada model Llama 3.1 405B. Dengan memisahkan fase context yang berat komputasi dan fase generation yang sensitif terhadap latensi ke GPU berbeda, NVIDIA mampu meningkatkan throughput per GPU hingga 1,5 kali lipat dibanding metode tradisional. Secara keseluruhan, pendekatan ini menghasilkan kinerja lebih dari 5 kali lipat dibanding Hopper, sekaligus menunjukkan efisiensi penggunaan sumber daya yang lebih baik.
 
Tidak hanya itu, perusahaan juga memperkenalkan Rubin CPX, prosesor baru yang dirancang khusus untuk mempercepat pemrosesan konteks panjang pada model bahasa besar. Kehadiran Rubin CPX diharapkan semakin memperkuat fondasi bagi generasi berikutnya dari sistem AI yang lebih cepat, efisien, dan cerdas.
 
Cek Berita dan Artikel yang lain di
Google News

Viral! 18 Kampus ternama memberikan beasiswa full sampai lulus untuk S1 dan S2 di Beasiswa OSC. Info lebih lengkap klik : osc.medcom.id
(MMI)




TERKAIT

BERITA LAINNYA

social
FOLLOW US

Ikuti media sosial medcom.id dan dapatkan berbagai keuntungan