Bekerja sama dengan AI Singapore dan beberapa organisasi AI lainnya, termasuk Kolaborasi Riset dan Inovasi Industri Kecerdasan Artifisial Indonesia (KORIKA), Project SEALD (Southeast Asian Languages in One Network Data) merupakan sebuah inisiatif penelitian yang bertujuan untuk meningkatkan kumpulan data bahasa demi melatih dan menyempurnakan model bahasa besar (LLM) khusus untuk bahasa Asia Tenggara.
Kolaborasi ini menandai langkah signifikan untuk meningkatkan konteks budaya dan kemampuan linguistik LLM di seluruh wilayah, menjanjikan manfaat sosial yang luas.
"Masalah utama yang kami cari adalah bahwa ketika LLM pertama kali muncul, saya mencoba Gemini, dan saya bertanya: Saya di Singapura, tolong bantu saya memesan kopi. Dan saya juga bertanya rekomendasi kopi yang enak di Singapura. Hasilnya tidak bagus dan mengecewakan,” tawa Pratyusha Mukherjee, APAC Lead, Gen AI & SEA Research Partnerships, Google Project SEALD dalam ajang Google Cloud Let’s Talk AI 2024.
Pratyusha menambahkan bahwa pertanyaan yang ia ajukan kepada Gemini bahkan dalam bahasa Inggris, yang notabene salah satu bahasa paling populer. Ini berarti ketika pengguna bahasa lain, khususnya bahasa di Asia Tenggara, yang mungkin banyak yang menjadikan bahasa Inggris bukanlah bahasa pertama, akan menjadi lebih sulit dipahami.
“Ketika mengolah pertanyaan ini dan mengkustomisasi ke dalam konteks lokal, AI akan menjawabnya lebih akurat. Hari ini, saya meminta Gemini untuk membelikan saya kopi. Ia bisa melakukannya dengan baik. Ia bahkan memiliki fitur di mana saya bisa bertanya melalui suara,” lanjutnya.
Project SEALD menargetkan pengembangan korpus data yang beragam dan berkualitas tinggi yang dimulai dengan lima bahasa utama: Indonesia, Thailand, Tamil, Filipina, dan Burma. Upaya ini merupakan bagian dari inisiatif SEA-LION oleh AISG, yang berfokus pada pengembangan LLM yang disesuaikan dengan baik untuk mencerminkan konteks budaya yang unik dan nuansa linguistik Asia Tenggara.
Kolaborasi ini mencakup pengembangan model lokalisasi dan terjemahan, penetapan praktik terbaik untuk penyetelan instruksi kumpulan data, dan pembuatan alat lokalisasi yang dapat diskalakan. Tidak sebatas teks, Google Cloud juga mengembangkannya dalam bentuk gambar.
“Jadi, pertama kami mencoba memberikan prompt teks atau gambar dan menyesuaikan dengan siapa yang memberikan prompt tersebut. Ketika meminta seseorang untuk menjelaskan hal pasar, kita melihat seperti apa penggunaan kata ‘pasar’ tersebut, apakah ‘pasar’ atau pusat ‘jual-beli’. Dari sini saja sudah bisa mempengaruhi cara Gemini membentuk respon,” lanjutnya.
“Kami memiliki beberapa permintaan lainnya untuk memastikan kita menangkap bahwa, bahasa Indonesia yang diucapkan oleh seseorang di Jakarta berbeda dengan seseorang di kota tier 2 atau seseorang di desa. Semuanya itu bisa berubah secara drastis berdasarkan prompt gambar yang dipresentasikan.”
Masih dalam tahap pengembangan, nantinya kumpulan data dan output dari Project SEALD tersedia dalam open source. Inisiatif ini terutama bertujuan meningkatkan komunikasi dengan populasi pekerja migran Singapura yang kurang terwakili, yang seringkali lebih fasih bahasa daerah daripada bahasa Inggris. Pratyusha mengatakan perjalanan pengembangan ini masih panjang, bahkan Indonesia saja punya sekitar 700 bahasa daerah.
Cek Berita dan Artikel yang lain di
Google News