Jakarta: Di tengah lonjakan biaya pengembangan kecerdasan buatan (AI), Google memperkenalkan pendekatan baru bernama TurboQuant.
Teknologi ini dirancang untuk menekan penggunaan memori pada model AI, yang selama ini menjadi salah satu komponen paling mahal dalam operasional AI modern.
Kemunculan TurboQuant tidak lepas dari fenomena meningkatnya kebutuhan data center dan kelangkaan komponen seperti memori, yang mendorong biaya AI terus naik dalam beberapa tahun terakhir.
Menurut penjelasan Google di situs resminya, TurboQuant merupakan teknik kompresi data yang dikembangkan Google untuk membuat model AI lebih efisien. Secara sederhana, teknologi ini mengurangi jumlah data (bit) yang dibutuhkan AI untuk menyimpan dan memproses informasi.
Pendekatan ini disebut “quantization”, yaitu cara merepresentasikan data dengan ukuran lebih kecil tanpa mengorbankan akurasi secara signifikan. Dalam konteks TurboQuant, fokus utamanya ada pada bagian penting dalam AI yang disebut key-value cache (KV cache), komponen yang menyimpan informasi percakapan atau konteks sebelumnya.
Bagaimana cara kerja TurboQuant? Dijelaskan secara sederhana, saat pengguna mengetik ke chatbot seperti AI, sistem akan mencocokkan input (query) dengan data yang tersimpan.
Kemudian sistem menghitung kemiripan untuk menentukan respons, dan enyimpan hasilnya agar proses berikutnya lebih cepat. Masalahnya, semakin lama interaksi berlangsung, data yang disimpan di KV cache semakin besar dan memakan banyak memori.
Di sinilah TurboQuant bekerja. Teknologi ini melakukan kompresi data di KV cache agar lebih kecil, serta tetap menjaga akurasi hasil pencarian. TurboQuant juga melakukan kompresi secara real-time (bukan sebelum dijalankan)
Google menyebut pendekatan ini mampu memangkas penggunaan memori hingga enam kali lebih efisien tanpa menurunkan performa model.
Diketahui, model AI modern membutuhkan memori besar karena mengolah data dalam jumlah sangat besar, menggunakan konteks panjang (context window), dan menyimpan riwayat interaksi untuk respons lebih akurat
Sebagai contoh, model terbaru memiliki konteks hingga jutaan token, jauh lebih besar dibanding generasi sebelumnya. Hal ini otomatis meningkatkan kebutuhan memori dan storage secara drastis.
Teknologi ini dirancang untuk menekan penggunaan memori pada model AI, yang selama ini menjadi salah satu komponen paling mahal dalam operasional AI modern.
Kemunculan TurboQuant tidak lepas dari fenomena meningkatnya kebutuhan data center dan kelangkaan komponen seperti memori, yang mendorong biaya AI terus naik dalam beberapa tahun terakhir.
Menurut penjelasan Google di situs resminya, TurboQuant merupakan teknik kompresi data yang dikembangkan Google untuk membuat model AI lebih efisien. Secara sederhana, teknologi ini mengurangi jumlah data (bit) yang dibutuhkan AI untuk menyimpan dan memproses informasi.
Pendekatan ini disebut “quantization”, yaitu cara merepresentasikan data dengan ukuran lebih kecil tanpa mengorbankan akurasi secara signifikan. Dalam konteks TurboQuant, fokus utamanya ada pada bagian penting dalam AI yang disebut key-value cache (KV cache), komponen yang menyimpan informasi percakapan atau konteks sebelumnya.
Bagaimana cara kerja TurboQuant? Dijelaskan secara sederhana, saat pengguna mengetik ke chatbot seperti AI, sistem akan mencocokkan input (query) dengan data yang tersimpan.
Kemudian sistem menghitung kemiripan untuk menentukan respons, dan enyimpan hasilnya agar proses berikutnya lebih cepat. Masalahnya, semakin lama interaksi berlangsung, data yang disimpan di KV cache semakin besar dan memakan banyak memori.
Di sinilah TurboQuant bekerja. Teknologi ini melakukan kompresi data di KV cache agar lebih kecil, serta tetap menjaga akurasi hasil pencarian. TurboQuant juga melakukan kompresi secara real-time (bukan sebelum dijalankan)
Google menyebut pendekatan ini mampu memangkas penggunaan memori hingga enam kali lebih efisien tanpa menurunkan performa model.
Diketahui, model AI modern membutuhkan memori besar karena mengolah data dalam jumlah sangat besar, menggunakan konteks panjang (context window), dan menyimpan riwayat interaksi untuk respons lebih akurat
Sebagai contoh, model terbaru memiliki konteks hingga jutaan token, jauh lebih besar dibanding generasi sebelumnya. Hal ini otomatis meningkatkan kebutuhan memori dan storage secara drastis.
Kaitannya dengan Kelangkaan Memori dan Data Center
Dikutip dari laporan situs ZDnet, lonjakan kebutuhan AI saat ini membuat komponen seperti DRAM dan storage semakin mahal dan langka. Banyak kapasitas produksi memori dialihkan untuk kebutuhan data center AI, sehingga berdampak pada industri lain.
TurboQuant hadir sebagai respons terhadap kondisi tersebut. Dengan menekan kebutuhan memori maka biaya operasional AI bisa ditekan, beban data center berkurang, dan AI berpotensi dijalankan di perangkat lokal dengan spesifikasi lebih rendah
Namun, efisiensi ini tidak selalu berarti total konsumsi akan turun. Menariknya, peningkatan efisiensi seperti TurboQuant justru bisa mendorong penggunaan AI yang lebih luas. Fenomena ini dikenal sebagai Jevons paradox, ketika teknologi yang lebih efisien malah meningkatkan total konsumsi.
Artinya, meskipun penggunaan memori per model lebih kecil, jumlah penggunaan AI secara keseluruhan bisa meningkat, yang pada akhirnya tetap mendorong kebutuhan data center.
TurboQuant hadir sebagai respons terhadap kondisi tersebut. Dengan menekan kebutuhan memori maka biaya operasional AI bisa ditekan, beban data center berkurang, dan AI berpotensi dijalankan di perangkat lokal dengan spesifikasi lebih rendah
Namun, efisiensi ini tidak selalu berarti total konsumsi akan turun. Menariknya, peningkatan efisiensi seperti TurboQuant justru bisa mendorong penggunaan AI yang lebih luas. Fenomena ini dikenal sebagai Jevons paradox, ketika teknologi yang lebih efisien malah meningkatkan total konsumsi.
Artinya, meskipun penggunaan memori per model lebih kecil, jumlah penggunaan AI secara keseluruhan bisa meningkat, yang pada akhirnya tetap mendorong kebutuhan data center.
Cek Berita dan Artikel yang lain di
Google News