NVIDIA DGX Superpod

NVIDIA DGX SuperPOD untuk Superkomputer AI Generatif Skala Triliun Parameter

Mohamad Mamduh • 22 Maret 2024 11:20

Jakarta: NVIDIA dalam ajang GTC 2024 mengumumkan superkomputer AI generasi berikutnya — NVIDIA DGX SuperPOD yang didukung oleh NVIDIA GB200 Grace Blackwell Superchips — untuk memproses model triliunan parameter dengan waktu aktif konstan untuk pelatihan AI generatif skala besar dan beban kerja inferensi.

Menampilkan arsitektur skala rak baru yang sangat efisien dan berpendingin cairan, DGX SuperPOD baru dibuat dengan sistem NVIDIA DGX GB200 dan menyediakan 11,5 exaflops superkomputer AI pada presisi FP4 dan memori cepat 240 terabyte — ditingkatkan lebih banyak lagi dengan rak tambahan.

Setiap sistem DGX GB200 dilengkapi 36 Superchip NVIDIA GB200 — yang mencakup 36 CPU NVIDIA Grace dan 72 GPU NVIDIA Blackwell — terhubung sebagai satu superkomputer melalui NVIDIA NVLink generasi kelima. Superchip GB200 menghadirkan peningkatan performa hingga 30x dibandingkan dengan GPU NVIDIA H100 Tensor Core untuk beban kerja inferensi model bahasa besar.

“Superkomputer AI NVIDIA DGX adalah pabrik revolusi industri AI,” kata Jensen Huang, pendiri dan CEO NVIDIA. “DGX SuperPOD baru menggabungkan kemajuan terbaru dalam akselerasi komputasi, jaringan, dan perangkat lunak NVIDIA untuk memungkinkan setiap perusahaan, industri, dan negara menyempurnakan dan menghasilkan AI mereka sendiri.”

DGX SuperPOD yang didukung Grace Blackwell memiliki delapan atau lebih sistem DGX GB200 dan dapat menskalakan hingga puluhan ribu Superchip GB200 yang terhubung melalui NVIDIA Quantum InfiniBand.

Untuk mendapatkan ruang memori bersama yang besar guna mendukung model AI generasi berikutnya, pelanggan dapat menerapkan konfigurasi yang menghubungkan 576 GPU Blackwell di delapan sistem DGX GB200 yang terhubung melalui NVLink.

Arsitektur SuperPOD DGX Skala Rak Baru untuk Era AI Generatif
DGX SuperPOD baru dengan sistem DGX GB200 dilengkapi dengan struktur komputasi terpadu. Selain NVIDIA NVLink generasi kelima, fabric ini juga menyertakan DPU NVIDIA BlueField-3 dan akan mendukung jaringan NVIDIA Quantum-X800 InfiniBand, yang diumumkan secara terpisah hari ini. Arsitektur ini menyediakan bandwidth hingga 1.800 gigabyte per detik untuk setiap GPU di platform.

Selain itu, teknologi NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ generasi keempat menyediakan 14,4 teraflops In-Network Computing, peningkatan 4x pada arsitektur DGX SuperPOD generasi berikutnya dibandingkan generasi sebelumnya.

DGX SuperPOD baru adalah superkomputer AI lengkap berskala pusat data yang terintegrasi dengan penyimpanan berkinerja tinggi dari mitra bersertifikasi NVIDIA untuk memenuhi tuntutan beban kerja AI generatif. Masing-masing dibuat, dipasang dengan kabel, dan diuji di pabrik untuk mempercepat penerapan di pusat data pelanggan.

DGX SuperPOD yang didukung Grace Blackwell memiliki kemampuan manajemen prediktif yang cerdas untuk terus memantau ribuan titik data di seluruh perangkat keras dan perangkat lunak untuk memprediksi dan mencegat sumber waktu henti dan inefisiensi — menghemat waktu, energi, dan biaya komputasi.

Perangkat lunak ini dapat mengidentifikasi area yang menjadi perhatian dan merencanakan pemeliharaan, menyesuaikan sumber daya komputasi secara fleksibel, dan secara otomatis menyimpan dan melanjutkan pekerjaan untuk mencegah downtime, bahkan tanpa kehadiran administrator sistem.

Jika perangkat lunak mendeteksi diperlukannya komponen pengganti, cluster akan mengaktifkan kapasitas siaga untuk memastikan pekerjaan selesai tepat waktu. Penggantian perangkat keras apa pun yang diperlukan dapat dijadwalkan untuk menghindari waktu henti yang tidak direncanakan.

Sistem NVIDIA DGX B200 Memajukan Superkomputer AI untuk Industri
NVIDIA juga meluncurkan sistem NVIDIA DGX B200, platform superkomputer AI terpadu untuk pelatihan, penyesuaian, dan inferensi model AI.

DGX B200 adalah generasi keenam desain DGX tradisional berpendingin udara yang dipasang di rak yang digunakan oleh industri di seluruh dunia. Sistem DGX B200 berarsitektur Blackwell baru mencakup delapan GPU NVIDIA Blackwell dan dua prosesor Intel Xeon Generasi ke-5. Pelanggan juga dapat membangun DGX SuperPOD menggunakan sistem DGX B200 untuk menciptakan AI Centers of Excellence yang dapat mendukung pekerjaan tim besar pengembang yang menjalankan banyak pekerjaan berbeda.

Sistem DGX B200 menyertakan fitur presisi FP4 dalam arsitektur Blackwell baru, memberikan kinerja AI hingga 144 petaflops, memori GPU sebesar 1,4TB, dan bandwidth memori 64TB/dtk. Hal ini memberikan inferensi real-time 15x lebih cepat untuk model triliunan parameter dibandingkan generasi sebelumnya.

Sistem DGX B200 mencakup jaringan canggih dengan delapan NIC NVIDIA ConnectX-7 dan dua DPU BlueField-3. Ini menyediakan bandwidth hingga 400 gigabit per detik per koneksi — menghadirkan kinerja AI yang cepat dengan platform jaringan NVIDIA Quantum-2 InfiniBand dan NVIDIA Spectrum-X Ethernet.

Dukungan Perangkat Lunak dan Pakar untuk Menskalakan Produksi AI
Semua platform NVIDIA DGX menyertakan perangkat lunak NVIDIA AI Enterprise untuk pengembangan dan penerapan tingkat perusahaan. Pelanggan DGX dapat mempercepat pekerjaan mereka dengan model dasar NVIDIA, kerangka kerja, toolkit, dan layanan mikro NVIDIA NIM baru yang telah dilatih sebelumnya yang disertakan dalam platform perangkat lunak.

Pakar NVIDIA DGX dan mitra NVIDIA terpilih yang tersertifikasi untuk mendukung platform DGX membantu pelanggan di setiap langkah penerapan, sehingga mereka dapat dengan cepat memindahkan AI ke dalam produksi. Setelah sistem beroperasi, para ahli DGX terus mendukung pelanggan dalam mengoptimalkan jaringan dan infrastruktur AI mereka.

NVIDIA DGX SuperPOD dengan sistem DGX GB200 dan DGX B200 diharapkan tersedia akhir tahun ini dari mitra global NVIDIA.

Cek Berita dan Artikel yang lain di

Google News

Viral! 18 Kampus ternama memberikan beasiswa full sampai lulus untuk S1 dan S2 di Beasiswa OSC. Info lebih lengkap klik : osc.medcom.id

(MMI)