OpenAI mengklaim telah mengidentifikasi salah satu penyebab utama hallucination, dan menawarkan perubahan yang bisa membuat AI lebih dapat dipercaya.
OpenAI mengklaim telah mengidentifikasi salah satu penyebab utama hallucination, dan menawarkan perubahan yang bisa membuat AI lebih dapat dipercaya.

OpenAI Temukan Penyebab Halusinasi AI dan Usulkan Cara Perbaikannya

Lufthi Anggraeni • 13 September 2025 12:20
Jakarta: Halusinasi atau hallucination alias ketika AI, khususnya model bahasa besar atau large language model (LLM), menghasilkan pernyataan yang terdengar meyakinkan tapi salah atau tidak berdasar, sejak lama menjadi keluhan utama pengguna.
 
OpenAI kini mengklaim telah mengidentifikasi salah satu penyebab utama masalah ini, dan menawarkan perubahan yang bisa membuat AI lebih dapat dipercaya. Mengutip Gizmochina, secara umum, hallucination adalah output yang terlihat benar secara bahasa dan struktur, tapi faktanya tidak akurat.
 
Misalnya AI mungkin mengarang sumber, statistik, nama, atau detail ketika menjawab pertanyaan di luar pengetahuannya. Menurut riset terbaru OpenAI bersama Georgia Tech, hallucination tidak semata‐mata disebabkan oleh data pelatihan buruk atau arsitektur model kurang baik.

Riset ini menyebut penyebab hallucination lebih karena cara evaluasi dan pelatihan model yang mendorong AI untuk menebak daripada menunjukkan ketidakpastian. Riset OpenAI menyoroti bahwa banyak benchmark atau tolok ukur kinerja AI, yang sering digunakan dalam pelatihan dan penilaian model, mendesain nilai atau skor model berdasarkan berapa banyak jawaban yang benar.
 
Model didorong untuk selalu memberikan jawaban, bahkan jika mereka tidak yakin. Lebih baik menjawab semuanya, meski beberapa jawaban salah, daripada menjawab sebagian dan mengatakan saya tidak tahu.
 
OpenAI mengibaratkan kondisi ini seperti ujian pilihan ganda, sebab jika meninggalkan soal kosong dijamin mendapat nol, sementara menjawab tebakan memberi kemungkinan nilai meskipun salah. Begitu juga dengan AI, disebut akan mendapatkan lebih baik dalam skor jika sering menebak dan beruntung, meski banyak jawaban salah.
 
Dalam salah satu benchmark yang dibahas, model yang bersifat lebih hati-hati atau memilih jawaban jika yakin saja, dan menjawab tidak tahu saat tidak yakin, hanya menjawab setengah dari pertanyaan tetapi mencapai akurasi sekitar 74%.
 
Sedangkan model lain yang menjawab hampir semua pertanyaan, meskipun sering salah, akhirnya menghasilkan tingkat hallucination tinggi. Artinya, model yang sangat percaya diri bisa terlihat bagus dalam skor akurasi, tapi berkualitas buruk jika banyak informasi yang mereka sampaikan salah atau mengada-ada.
 
Hal ini menjadi inti dari kritik riset OpenAI, bahwa evaluasi saat ini menghargai percaya diri lebih tinggi daripada kejujuran atau kenyataan. Berdasarkan temuannya, OpenAI mengusulkan beberapa perubahan mendasar dalam cara model AI dievaluasi dan dilatih ke depannya.
 
Usulan tersebut termasuk mengubah skema penilaian atau benchmarking atau evaluation metrics, dengan mengurangi insentif untuk menjawab setiap pertanyaan jika tidak yakin, serta memberi penalti lebih besar terhadap jawaban yang yakin tetapi salah atau confident wrong dibandingkan dengan penalti terhadap ketidakpastian atau menjawab tidak tahu.
 

Usulan OpenAI lainnya yaitu memberikan hadiah untuk ketidakpastian tepat, sebab model yang dapat menunjukkan ketidakpastian ketika seharusnya tidak tahu, harus mendapat skor yang baik jika mereka abstain daripada menebak.
 
Selain itu, hal ini berarti bahwa model yang berhati-hati dan tidak memaksakan jawaban akan diuntungkan dibandingkan dengan model yang selalu coba menebak. OpenAI juga mengusulkan untuk melakukan evaluasi tidak hanya berdasarkan akurasi tunggal.
 
OpenAi menilai benchmark utama perlu diperbarui agar tidak hanya memprioritaskan akurasi tinggi, tetapi juga mempertimbangkan jawaban yang diberikan dapat dipercaya, dengan mempertimbangkan konteks ketidakpastian. 
 
Pengimplementasian usulan secara luas, akan menghadirkan beberapa perubahan termasuk AI akan mulai lebih sering menjawab saya tidak tahu jika informasinya tidak tersedia, bukan mengarang jawaban semi meyakinkan.
 
Selain itu, implementasi usulan ini juga akan menghadirkan peningkatan pada tingkat kepercayaan terhadap jawaban AI karena pengguna tak perlu selalu cross-check setiap fakta kecil. Implementasi usulan ini juga berdampak pada pengurangan risiko disinformasi dari AI, terutama penggunaan dalam konteks resmi atau akademik di mana fakta sangat penting.
 
Tidak hanya itu, dengan mengimplementasikan usulan ini, pengembang dan perusahaan AI berpotensi perlu menyesuaikan model pelatihan, data evaluasi, dan tolok ukur internal agar sesuai standar baru.
 
Cek Berita dan Artikel yang lain di
Google News
(MMI)




TERKAIT

BERITA LAINNYA

social
FOLLOW US

Ikuti media sosial medcom.id dan dapatkan berbagai keuntungan