Selama ini, organisasi dihadapkan pada dua pilihan sulit. Pertama, menyediakan banyak replika GPU untuk mengantisipasi lalu lintas puncak, yang berujung pada pemborosan karena sebagian besar waktu GPU menganggur. Kedua, melakukan scale from zero saat permintaan melonjak, yang menyebabkan latensi tinggi dan berisiko melanggar SLA (service level agreement). Kedua pendekatan ini dinilai tidak efisien.
GPU Memory Swap menawarkan solusi dengan memungkinkan beberapa model berbagi GPU, bahkan jika total kebutuhan memorinya melebihi kapasitas GPU.
Mekanismenya adalah memindahkan model yang sedang tidak aktif dari memori GPU ke memori CPU (dynamic memory offloading), lalu memanggilnya kembali ke GPU saat ada permintaan (rapid activation). Dengan cara ini, lebih banyak model dapat berjalan di perangkat keras yang sama, mengurangi jumlah GPU yang harus selalu aktif.
Pengujian dilakukan menggunakan tiga model populer: Meta Llama 3.1 8B Instruct, Mistral-7B, dan Falcon-11B, dengan GPU NVIDIA L40S 48 GB di lingkungan AWS. Hasilnya, waktu Time to First Token (TTFT) untuk scale from zero mencapai 145–208 detik, sedangkan GPU Memory Swap hanya membutuhkan sekitar 2,4–3,13 detik.
Sebagai perbandingan, model yang sudah “hangat” di GPU (warm models) mencatat TTFT 0,036–0,25 detik, namun dengan biaya jauh lebih tinggi karena GPU harus selalu aktif.
Dengan demikian, GPU Memory Swap memberikan keseimbangan ideal antara biaya dan performa. Latensi hanya sedikit lebih tinggi dibanding warm models, tetapi dengan penghematan biaya yang signifikan. Teknologi ini dinilai cocok untuk beban kerja AI yang tidak dapat diprediksi, di mana efisiensi dan respons cepat sama-sama penting.
NVIDIA menyatakan bahwa GPU Memory Swap dapat membantu perusahaan memaksimalkan pemanfaatan GPU, meminimalkan biaya menganggur, dan tetap memenuhi ekspektasi pengguna akan layanan AI yang responsif.
Cek Berita dan Artikel yang lain di
Google News