Sean Duca - Regional Vice President and Chief Security Officer, JAPAC, Palo Alto Networks

Algoritmik Transparansi, Desakan untuk AI yang Lebih Mudah Dimengerti

Mohammad Mamduh • 10 Oktober 2023 13:54

Jakarta: Belakangan ini, kita banyak menjumpai sejumlah keunikan yang berasal dari ‘kelompok’ yang dapat diprogram, atau yang biasa kita sebut sebagai ‘kecerdasan buatan’ (artificial intelligence).

Meskipun kehadiran mereka sering kali nampak nyata dalam kehidupan sehari-hari dengan turut berperan membantu kita di ranah layanan pelanggan, terlibat dalam video game, serta turut meramaikan media sosial kita, kenyataaannya pemahaman akan penggunaannya seringkali masih diabaikan.

Saat ini, kecerdasan buatan bahkan telah menyusup ke dalam aktivitas finansial kita, dengan memanfaatkan teknologi AI seperti ChatGPT untuk melakukan transaksi jual-beli saham hingga membuat keputusan investasi.

Di sisi lain, konsensus dan ketidakjelasan yang menyelimuti teknologi AI ini menandakan bahwa output yang dihasilkan oleh teknologi ini tidak dapat diandalkan seperti variabel yang mengaturnya.

Dalam situasi yang sangat kompleks dan beragam ini, transparansi dan kualitas data serta algoritma yang mengendalikan teknologi ini sangatlah penting.

Minimnya kesadaran akan faktor-faktor penting yang menyelimutinya seperti tingkat kepercayaan dan kualitas dapat menyebabkan bias, misinformasi, dan potensi terjadinya kerentanan terhadap manipulasi yang dilakukan oleh aktor-aktor jahat. Oleh karena itu, kita perlu meningkatkan kemampuan kita untuk memahami cara kerja alat-alat ini dan juga motif di balik aktivitas mereka.

Large language model (model bahasa besar) merupakan sistem kecerdasan buatan yang diprogram menggunakan rangkaian data teks yang komprehensif. Tujuan rancangannya adalah untuk memunculkan teks yang mirip seperti tulisan manusia sebagai tanggapan terhadap masukan.

Penggunaan istilah "besar" ini merujuk pada besarnya model dalam hal jumlah parameter dan volume data pembelajaran. Sebagai contoh, GPT-3 dari OpenAI proses pembelajarannya menggunakan model kolosal yang menggabungkan 175 miliar variabel dari jumlah teks yang sangat besar.

Model-model ini tentunya memerlukan pemahaman mendalam terhadap teks yang mereka hasilkan, karena model-model ini bergantung pada kemampuan mengenali pola-pola dari data pembelajaran yang ada untuk menghasilkan output yang dapat diprediksi. Prinsip yang mendasarinya tetap konsisten: yaitu data pembelajaran yang komprehensif dan berkualitas tinggi dapat mendorong terwujudnya prediksi yang akurat.

Sebaliknya, "model yang dipatenkan" biasanya dibuat oleh suatu lembaga atau perusahaan tertentu dan meliputi suatu rancangan yang desain, struktur, dan algortima programnya dapat melindungi kekayaan intelektual pembuatnya.

Penggunaan istilah ini sering kali dipadankan dengan model sumber terbuka (open-source), yang cetak birunya (blueprint) dapat diakses oleh publik untuk digunakan, diubah, dan disebarluaskan. Gambaran pentingnya adalah bahwa model yang dipatenkan pada dasarnya tidak jauh berbeda dengan model bahasa besar. Istilah-istilah tersebut hanya memberi penekanan pada karakteristik model lainnya.

Suatu model seperti GPT-3 OpenAI dapat menjadi model bahasa yang besar sekaligus memiliki hak kepemilikan. Seperti yang telah disampaikan sebelumnya, model-model ini diprogram menggunakan dataset yang luas dan kompleks, sehingga menimbulkan risiko ketidaksesuaian dalam kualitas output yang dihasilkan karena adanya gangguan pada dataset yang diprogram—sebuah istilah yang kami sebut sebagai keracunan data (data poisoning).

Keamanan siber memberikan analogi yang tepat untuk hal tersebut: "Sampah masuk, sampah keluar." Seperti halnya praktik kebersihan siber, kualitas dan seleksi data yang digunakan untuk membuat model sangatlah berpengaruh terhadap hasil, sehingga mampu mendeteksi anomali secara akurat sekaligus membantu mengembangkan inovasi.

Pertanyaannya adalah bagaimana kita bisa mencegah keracunan data? Kuncinya terletak pada proses pengambilan dan pemilihan data yang dilakukan dengan cermat, sehingga dapat menghindari akumulasi data yang serampangan/acakadut/apa si padanan kata yang tepat?

Perhatian khusus terhadap pengumpulan data yang berkualitas tinggi akan menjaga keakuratan output dari suatu model, terlepas dari apakah model tersebut merupakan model eksklusif atau open source. Kuantitas data tidak menjadi penentu utama dalam menentukan efektivitas suatu model, melainkan kualitas dan relevansi dari data yang dihasilkan.

Algoritmik Transparansi memerlukan kejelasan mengenai cara kerja algoritma secara umum. Sebagai contoh, sebuah algoritma pengambil keputusan pinjaman (loan decision-making algorithm) sebaiknya memberikan penjelasan mengenai faktor-faktor yang perlu dipertimbangkan (pendapatan, skor kredit) beserta bobot dari masing-masing faktor tersebut.

Sedangkan Algoritmik Akuntabilitas, sebagai padanan dari Algoritmik Transparansi, mengharuskan entitas pengguna untuk bertanggung jawab atas pengambilan keputusan algoritmiknya, terutama apabila hasilnya menunjukkan indikasi terjadinya bias atau diskriminasi.

Mempertimbangkan penggunaan pembelajaran mesin (machine learning) di dalam Intrusion Detection Systems (IDS) dapat membantu organisasi dalam memantau jaringan dari potensi ancaman atau pelanggaran kebijakan.

Machine learning meningkatkan kemampuan IDS dengan mengaktifkan kemampuan mengenali ancaman berdasarkan data yang sudah ada sebelumnya. Namun, terlepas dari kemajuan, transparansi, dan akuntabilitas yang sudah diterapkan, tantangan akan tetap ada.

Di dalam konteks ini, Algoritmik Transparansi menjelaskan bahwa pengguna IDS harus memahami dasar pengambilan keputusan. Karakteristik apa yang menandakan adanya ancaman? Bagaimana cara membedakan aktivitas normal dan berbahaya?

Meskipun mengungkapkan mekanisme sistem yang tepat malah justru dapat membantu calon penyerang, di mana tentunya harus dihindari, pengguna harus memiliki informasi yang cukup demi mempercayai dan menavigasi sistem secara efektif.

Algoritmik Akuntabilitas menghadirkan pertanyaan tentang tanggung jawab jika terjadi kesalahan respon positif atau negatif. Provider IDS harus bisa bertanggung jawab terhadap kesalahan ini, terutama jika timbul dari kelemahan algoritmik.

Kini, tantangannya terletak pada bagaimana kita dapat menjaga keseimbangan antara transparansi, akuntabilitas, perlindungan pada kepentingan kepemilikan, dan mencegah potensi serangan oleh pihak luar. Ini adalah tanggung jawab yang meliputi banyak aspek, memerlukan pertimbangan yang berbeda-beda dan pendekatan yang seimbang.

Penting juga untuk memahami tingkat kerumitan teknis dalam memahami proses pengambilan keputusan beberapa algoritma, seperti jaringan saraf, dan melindungi informasi kepemilikan. Terlepas dari hambatan-hambatan ini, konsensus di antara para ahli sudah jelas: kita harus berupaya meningkatkan transparansi dan akuntabilitas algoritmik.

(Sean Duca, Regional Vice President and Chief Security Officer, JAPAC, Palo Alto Networks)

Cek Berita dan Artikel yang lain di

Google News

(MMI)