Ilustrasi
Ilustrasi

Speculative Decoding dari Intel dan Weizmann Institute Demi Akselerasi Inferensi AI

Mohamad Mamduh • 20 Juli 2025 19:06
Jakarta: Intel Labs bekerja sama dengan Weizmann Institute of Science memperkenalkan terobosan baru dalam teknologi inferensi model bahasa besar (LLM) pada konferensi International Conference on Machine Learning (ICML) di Vancouver.
 
Teknik yang dinamakan speculative decoding ini memadukan kecepatan model “draft” kecil dengan akurasi model besar, sehingga bisa mempercepat proses generasi teks hingga 2,8 kali lipat tanpa mengorbankan kualitas output.
 
Cara kerjanya sederhana namun revolusioner. Pertama, model asisten berukuran kecil menebak satu rangkaian kata lengkap — misalnya “Paris, kota yang terkenal…” — dalam sekali langkah. Setelah itu, model besar mengecek dan memperbaiki prediksi tersebut token demi token.

Dengan metode konvensional, setiap kata dihasilkan secara berurutan oleh satu model yang sama, menuntut perhitungan ulang yang berat. Melalui speculative decoding, beban komputasi menurun drastis sehingga penulisan teks menjadi lebih cepat dan hemat sumber daya.
 
Keunggulan lain dari pendekatan ini adalah sifatnya yang vendor-agnostik: draft model dan model besar tidak perlu berbagi kosakata atau dilatih berpasangan.
 
Dengan tiga algoritma baru yang dikembangkan tim peneliti untuk memisahkan decoding spekulatif dari penyelarasan kosakata, pengembang dapat mencampur dan mencocokkan kombinasi model apa pun. Implementasinya pun sudah tersedia secara langsung di pustaka open source Hugging Face Transformers, memudahkan integrasi tanpa penulisan kode khusus.
 
Dampak solusi ini sangat luas. Mulai penyedia layanan cloud hingga perangkat edge di berbagai industri bisa menikmati kecepatan inferensi LLM yang lebih tinggi sekaligus menekan biaya operasional.
 
“Kami memecahkan salah satu hambatan utama dalam AI generatif. Sekarang, siapa pun bisa mengakses akselerasi model canggih tanpa harus melatih draft model sendiri,” ujar Oren Pereg, peneliti senior di Natural Language Processing Group, Intel Labs.
 
Nadav Timor, mahasiswa doktoral di Weizmann Institute, menambahkan bahwa inovasi ini membuka era baru interoperabilitas model bahasa. Dengan akses mudah dan performa tinggi, pengembang, peneliti, dan perusahaan berpeluang menciptakan aplikasi AI yang lebih responsif dan efisien, dari chatbot pintar hingga sistem rekomendasi real-time.
 
Cek Berita dan Artikel yang lain di
Google News
(MMI)




TERKAIT

BERITA LAINNYA

social
FOLLOW US

Ikuti media sosial medcom.id dan dapatkan berbagai keuntungan