Mengelola dan mengoordinasi permintaan inference AI di seluruh armada besar GPU sangat penting untuk memastikan pabrik-pabrik AI beroperasi dengan biaya serendah mungkin, sehingga memaksimalkan pendapatan dari token yang dihasilkan.
Seiring dengan AI reasoning yang semakin populer, setiap model AI akan menghasilkan puluhan ribu token yang digunakan untuk "berpikir" dengan setiap perintah. Meningkatkan kinerja inference sambil terus menurunkan biaya inference akan mempercepat pertumbuhan dan meningkatkan peluang pendapatan bagi penyedia layanan.
Dynamo, penerus Triton Inference Server, adalah perangkat lunak inference-serving AI baru yang dirancang untuk memaksimalkan pendapatan token untuk pabrik-pabrik AI yang menerapkan model AI reasoning.
Dynamo mengatur dan mempercepat komunikasi inference di ribuan GPU, dan menggunakan disaggregated serving untuk memisahkan fase pemrosesan dan generasi model bahasa besar (LLM) pada GPU yang berbeda. Hal ini memungkinkan setiap fase dioptimalkan secara independen untuk kebutuhan spesifiknya dan memastikan pemanfaatan sumber daya GPU yang maksimal.
"Industri di seluruh dunia sedang melatih model AI untuk berpikir dan belajar dengan cara yang berbeda, membuatnya semakin canggih dari waktu ke waktu," kata Jensen Huang, pendiri dan CEO NVIDIA. "Untuk memungkinkan masa depan AI reasoning kustom, NVIDIA Dynamo membantu melayani model-model ini dalam skala besar, mendorong penghematan biaya dan efisiensi di seluruh pabrik AI."
Dengan jumlah GPU yang sama, Dynamo menggandakan kinerja dan pendapatan pabrik AI yang melayani model Llama pada platform NVIDIA Hopper saat ini. Saat menjalankan model DeepSeek-R1 pada klaster besar rak GB200 NVL72, optimisasi inference cerdas NVIDIA Dynamo juga meningkatkan jumlah token yang dihasilkan lebih dari 30 kali lipat per GPU.
Untuk mencapai peningkatan kinerja inference ini, NVIDIA Dynamo menggabungkan fitur-fitur yang memungkinkannya meningkatkan throughput dan mengurangi biaya. Dynamo dapat secara dinamis menambah, menghapus, dan mengalokasikan ulang GPU sebagai respons terhadap volume dan jenis permintaan yang berfluktuasi, serta menentukan GPU spesifik dalam klaster besar yang dapat meminimalkan perhitungan respons dan merutekan kueri.
Dynamo juga dapat memindahkan data inference ke perangkat memori dan penyimpanan yang lebih terjangkau dan mengambilnya dengan cepat saat dibutuhkan, sehingga meminimalkan biaya inference.
NVIDIA Dynamo sepenuhnya open-source dan mendukung PyTorch, SGLang, NVIDIA TensorRT-LLM, dan vLLM untuk memungkinkan perusahaan, startup, dan peneliti mengembangkan dan mengoptimalkan cara melayani model AI di seluruh disaggregated inference.
Dynamo akan memungkinkan pengguna mempercepat adopsi inference AI, termasuk di AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI, dan VAST.
NVIDIA Dynamo memetakan pengetahuan yang disimpan sistem inference dalam memori dari melayani permintaan sebelumnya – dikenal sebagai KV cache – di ribuan GPU. Dynamo kemudian merutekan permintaan inference baru ke GPU yang memiliki kecocokan pengetahuan terbaik, menghindari perhitungan ulang yang mahal dan membebaskan GPU untuk menanggapi permintaan masuk baru.
"Untuk menangani ratusan juta permintaan setiap bulan, kami mengandalkan GPU NVIDIA dan perangkat lunak inference untuk memberikan kinerja, keandalan, dan skala yang dibutuhkan bisnis dan pengguna kami," kata Denis Yarats, chief technology officer Perplexity AI.
"Kami berharap dapat memanfaatkan Dynamo, dengan kemampuan distributed serving yang ditingkatkan, untuk mendorong efisiensi inference-serving yang lebih besar dan memenuhi tuntutan komputasi model AI reasoning baru."
Penyedia AI Cohere berencana untuk memberdayakan kemampuan AI agentic dalam seri model Command-nya menggunakan Dynamo. "Menskalakan model AI canggih membutuhkan penjadwalan multi-GPU yang canggih, koordinasi yang mulus, dan perpustakaan komunikasi latensi rendah yang mentransfer konteks reasoning dengan mulus melintasi memori dan penyimpanan," kata Saurabh Baji, senior vice president of engineering di Cohere.
Platform inference NVIDIA Dynamo juga mendukung disaggregated serving, yang menugaskan fase komputasi LLM yang berbeda – termasuk membangun pemahaman tentang kueri pengguna dan kemudian menghasilkan respons terbaik – ke GPU yang berbeda. Pendekatan ini ideal untuk model reasoning seperti keluarga model NVIDIA Llama Nemotron baru, yang menggunakan teknik inference canggih untuk pemahaman kontekstual dan generasi respons yang lebih baik.
Disaggregated serving memungkinkan setiap fase disesuaikan dan disesuaikan sumber dayanya secara independen, meningkatkan throughput dan memberikan respons yang lebih cepat kepada pengguna.
Together AI, AI Acceleration Cloud, berencana untuk mengintegrasikan Together Inference Engine miliknya dengan NVIDIA Dynamo untuk memungkinkan penskalaan beban kerja inference yang mulus di seluruh node GPU. Ini juga memungkinkan Together AI untuk secara dinamis mengatasi kemacetan lalu lintas pada berbagai tahap pipeline model.
Dynamo mencakup empat inovasi utama yang mengurangi biaya inference-serving dan meningkatkan pengalaman pengguna: GPU Planner, Smart Router, Low-Latency Communication Library, dan Memory Manager. Dynamo akan tersedia di microservice NIM dan didukung dalam rilis mendatang oleh platform perangkat lunak AI Enterprise dengan keamanan, dukungan, dan stabilitas tingkat produksi.
Cek Berita dan Artikel yang lain di
Google News
Viral! 18 Kampus ternama memberikan beasiswa full sampai lulus untuk S1 dan S2 di Beasiswa OSC. Info lebih lengkap klik : osc.medcom.id