Ilustrasi
Ilustrasi

Small Language Model, Kunci Efisiensi dan Skalabilitas Agentic AI

Mohamad Mamduh • 09 September 2025 11:09
Jakarta: Kebangkitan pesat agentic AI telah mengubah cara perusahaan, pengembang, dan berbagai industri memandang otomatisasi dan produktivitas digital. Dari alur kerja pengembangan perangkat lunak hingga orkestrasi proses bisnis, agen AI kini menjadi bagian penting dalam operasi inti, terutama di area yang sebelumnya dianggap penuh dengan tugas berulang.
 
Selama ini, sebagian besar agen bergantung pada large language models (LLM) yang dikenal karena kemampuan penalaran umum, kefasihan bahasa, dan dukungan untuk dialog terbuka. Namun, ketika digunakan di dalam agen, LLM tidak selalu menjadi pilihan paling efisien atau ekonomis.
 
NVIDIA, dalam makalah terbarunya Small Language Models are the Future of Agentic AI, menyoroti peluang besar untuk mengintegrasikan small language models (SLMs) menggantikan sebagian peran LLM dalam aplikasi agen.

Pendekatan ini diyakini dapat menurunkan biaya dan meningkatkan fleksibilitas operasional. Bukan berarti LLM akan kehilangan relevansi, melainkan akan digunakan secara selektif untuk tugas yang benar-benar memerlukan kemampuan generalis, sementara SLM menjadi tulang punggung operasional.
 
SLM dinilai ideal untuk era agentic AI karena sebagian besar tugas agen hanya memanfaatkan sebagian kecil kemampuan LLM. Tugas seperti memproses perintah, menghasilkan keluaran terstruktur seperti JSON, membuat ringkasan, atau menjawab pertanyaan kontekstual bersifat repetitif, dapat diprediksi, dan sangat spesifik.
 
Untuk konteks seperti ini, LLM yang dirancang untuk percakapan terbuka dianggap berlebihan dan memboroskan sumber daya. Sebaliknya, SLM yang di-fine-tune untuk rutinitas tertentu dapat bekerja lebih cepat, lebih andal, lebih hemat biaya, dan lebih jarang mengalami hallucination.
 
Contoh nyata adalah Nemotron Nano 2, model Mamba-transformer dengan 9 miliar parameter yang mampu mengungguli model sekelasnya dalam penalaran, pemrograman, dan instruction following. Model ini mendukung konteks hingga 128 ribu token, dioptimalkan untuk berjalan di satu GPU, dan tersedia dengan open weights untuk adaptasi di lingkungan perusahaan.
 
Keuntungan efisiensi dari SLM sangat signifikan. Menjalankan model seperti Llama 3.1B bisa 10 hingga 30 kali lebih murah dibandingkan LLM terbesar seperti Llama 3.3 405B. SLM juga dapat memberikan respons waktu nyata tanpa memerlukan paralelisasi besar, sehingga cocok untuk penerapan di cloud maupun edge.
 
Proses fine-tuning pun jauh lebih cepat, hanya memerlukan hitungan jam GPU dibandingkan hari atau minggu pada LLM. Dengan solusi seperti NVIDIA ChatRTX, SLM bahkan dapat dijalankan secara lokal di GPU konsumen, menjaga privasi dan mengurangi latensi.
 
Keunggulan lain SLM adalah kemampuannya untuk dilatih agar selalu mematuhi format keluaran tertentu, yang sangat penting dalam alur kerja agen. Hal ini mengurangi risiko kegagalan di sistem produksi. Arsitektur agen yang heterogen memungkinkan kombinasi beberapa SLM spesialis dengan LLM yang dipanggil hanya saat dibutuhkan.
 
Meski begitu, adopsi SLM masih terhambat oleh persepsi dan budaya organisasi yang cenderung menganggap model besar selalu lebih baik. NVIDIA memprediksi bahwa seiring meningkatnya kesadaran akan penghematan biaya dan keandalan SLM, pergeseran menuju sistem heterogen akan semakin cepat, mirip dengan transisi dari server monolitik ke cloud microservices. 
 
Cek Berita dan Artikel yang lain di
Google News
(MMI)




TERKAIT

BERITA LAINNYA

social
FOLLOW US

Ikuti media sosial medcom.id dan dapatkan berbagai keuntungan