Riset MIT: Platform Peringkat LLM Populer Ternyata Tidak Selalu Akurat

CAMBRIDGE, (9 Februari 2026)

Key Takeaway

Menghapus kurang dari 0,01% data feedback pengguna dapat mengubah posisi model teratas di platform peringkat LLM populer secara drastis.
Platform yang menggunakan tenaga ahli (expert annotators) terbukti jauh lebih tangguh (robust) dibandingkan platform berbasis crowdsourced massal.
Peneliti MIT telah mengembangkan metode pendekatan cepat untuk menguji keandalan peringkat AI demi membantu perusahaan menghindari kesalahan pemilihan model.

Perusahaan yang ingin menggunakan Large Language Model (LLM) untuk meringkas laporan atau menangani layanan pelanggan sering kali dihadapkan pada ratusan pilihan model dengan performa yang mirip. Mengutip laporan dari MIT News, banyak organisasi mengandalkan platform peringkat LLM populer yang mengumpulkan umpan balik pengguna untuk menentukan model mana yang terbaik.

Namun, studi terbaru dari peneliti Massachusetts Institute of Technology (MIT) mengungkapkan bahwa hasil peringkat tersebut bisa sangat tidak andal. Melansir data penelitian tersebut, ditemukan bahwa hanya dengan menghapus sebagian kecil data dari platform peringkat crowdsourced, hasil siapa yang menempati posisi puncak bisa berubah total. Hal ini menunjukkan bahwa peringkat tersebut sangat sensitif terhadap titik data tertentu yang mungkin mengandung kesalahan pengguna atau noise.

Kerentanan pada Data Crowdsourced

Tamara Broderick, Associate Professor di Departemen Electrical Engineering and Computer Science (EECS) MIT, menyatakan keterkejutannya atas sensitivitas platform ini. Dalam satu kasus, menghapus hanya dua suara dari lebih dari 57.000 (sekitar 0,0035 persen) sudah cukup untuk mengubah model mana yang menempati peringkat teratas.

Peneliti menemukan bahwa banyak suara yang berpengaruh besar kemungkinan besar merupakan hasil dari kesalahan pengguna. Misalnya, ada kasus di mana jawaban dari satu LLM jelas lebih baik, tetapi pengguna justru memilih model lainnya. Tanpa mekanisme penyaringan yang ketat, satu atau dua kesalahan klik seperti ini bisa mendistorsi persepsi publik terhadap kualitas sebuah model Generative AI.

Studi ini juga membandingkan platform crowdsourced dengan platform yang menggunakan pakar manusia sebagai penilai. Hasilnya, platform yang menggunakan expert annotators jauh lebih stabil. Dibutuhkan penghapusan sekitar 3 persen data (83 dari 2.575 evaluasi) untuk bisa mengubah urutan model teratas.

Metode Evaluasi Baru

Untuk mengatasi masalah ini, tim MIT mengembangkan metode pendekatan cepat berbasis Machine Learning untuk menguji ketangguhan platform peringkat tanpa harus menghitung ulang seluruh dataset yang masif secara manual. Teknik ini memungkinkan pengelola platform untuk mengidentifikasi suara atau prompt mana yang paling bertanggung jawab atas perubahan peringkat, sehingga mereka dapat melakukan inspeksi lebih lanjut.

Metode ini diharapkan dapat memicu pengelola platform peringkat untuk mengumpulkan informasi yang lebih kaya, seperti tingkat kepercayaan pengguna saat memberikan suara, atau menggunakan mediator manusia untuk memverifikasi respons crowdsourced.

Dampak bagi Indonesia

Fenomena ini memiliki implikasi serius bagi ekosistem teknologi di Indonesia. Saat ini, banyak startup dan perusahaan lokal yang mulai mengadopsi solusi Cloud Computing dan LLM untuk operasional mereka. Investasi untuk implementasi AI tingkat korporat di Indonesia bisa mencapai miliaran Rupiah.

Jika perusahaan di Indonesia hanya mengacu pada peringkat global yang tidak stabil ini, mereka berisiko memilih model yang tidak optimal untuk bahasa Indonesia atau konteks lokal. Mengingat LLM sering kali memiliki performa berbeda pada tugas spesifik seperti Prompt Engineering dalam bahasa daerah atau regulasi lokal, ketergantungan pada peringkat yang rapuh dapat menyebabkan inefisiensi biaya yang besar. Oleh karena itu, perusahaan lokal disarankan untuk melakukan pengujian mandiri (internal benchmarking) daripada hanya mengikuti tren peringkat global.

Artikel ini akan diperbarui seiring tersedianya informasi baru. Join Komunitas Rekayasa AI di Discord untuk diskusi lebih lanjut.

Riset MIT: Platform Peringkat LLM Populer Ternyata Tidak Selalu Akurat

Kerentanan pada Data Crowdsourced

Metode Evaluasi Baru

Dampak bagi Indonesia

Tim Rekayasa AI

Artikel Terkait

Google DeepMind Rilis Kerangka Kerja Kognitif untuk Mengukur Kemajuan AGI

Hubungan AS-China 2026: Diplomasi Iklim di Tengah Persaingan STEM & AI

Pentagon Bakal Latih Generative AI Pakai Data Rahasia Militer