Benchmark ini dikembangkan oleh Samsung Research dan diklaim mampu menjawab keterbatasan uji coba AI yang selama ini terlalu berfokus pada bahasa Inggris dan percakapan satu arah.
TRUEBench hadir mencakup sepuluh kategori dan 46 sub-kategori yang meliputi tugas-tugas umum perusahaan seperti pembuatan konten, analisis data, penerjemahan, hingga peringkasan dokumen. Total terdapat 2.485 set pengujian dalam 12 bahasa, termasuk Inggris, Mandarin, Jepang, Korea, Prancis, Jerman, Italia, Portugis, Rusia, Spanyol, Polandia, dan Vietnam.
Rentang pengujian pun bervariasi, mulai dari instruksi singkat delapan karakter hingga dokumen panjang lebih dari 20.000 karakter. Menurut Samsung, pendekatan ini lebih realistis karena menilai AI dalam dialog multi-putaran dan skenario lintas bahasa, bukan sekadar menjawab pertanyaan tunggal.
Paul (Kyungwhoon) Cheun, CTO Divisi DX Samsung Electronics sekaligus Kepala Samsung Research, menyatakan bahwa pihaknya berharap TRUEBench dapat menjadi standar evaluasi produktivitas sekaligus memperkuat kepemimpinan teknologi Samsung. Ia menekankan bahwa benchmark ini lahir dari pengalaman internal Samsung dalam menggunakan AI untuk mendukung produktivitas kerja sehari-hari.
Keunikan TRUEBench terletak pada metode penilaiannya yang menggabungkan kolaborasi manusia dan AI. Kriteria evaluasi disusun oleh anotator manusia, kemudian diperiksa oleh AI untuk mendeteksi kesalahan atau bias, sebelum akhirnya disempurnakan kembali oleh manusia.
Proses berulang ini menghasilkan standar yang lebih presisi dan konsisten. Setiap model AI harus memenuhi seluruh kondisi dalam sebuah tes agar dinyatakan lolos, sehingga skor yang dihasilkan lebih detail dan akurat.
Hasil pengujian TRUEBench dipublikasikan secara terbuka di platform Hugging Face, lengkap dengan papan peringkat yang memungkinkan pengguna membandingkan hingga lima model sekaligus.
Selain skor akurasi, tersedia pula data tentang panjang rata-rata respons dan efisiensi model. Menariknya, laporan awal menunjukkan bahwa GPT-5 saat ini memimpin peringkat dalam benchmark tersebut.
Dengan tolok ukur yang lebih representatif terhadap kebutuhan nyata, Samsung berupaya mendorong transparansi sekaligus menetapkan standar baru dalam menilai kemampuan model bahasa besar. Bagi industri, hal ini bisa menjadi acuan dalam memilih solusi AI yang benar-benar efektif untuk produktivitas kerja.
Cek Berita dan Artikel yang lain di
Google News
Viral! 18 Kampus ternama memberikan beasiswa full sampai lulus untuk S1 dan S2 di Beasiswa OSC. Info lebih lengkap klik : osc.medcom.id