Advertisement

Ad space available

Berita AI

Peneliti MIT Temukan Metode Baru Deteksi LLM yang 'Pede' Tapi Salah

Ilmuwan MIT mengembangkan teknik baru untuk mengidentifikasi kapan Large Language Model (LLM) memberikan jawaban salah meski terlihat meyakinkan. Metode ini meningkatkan keandalan AI dalam sektor krusial seperti kesehatan dan finansial.

Tim Rekayasa AI
Penulis
19 Maret 2026
4 min read
#AI#LLM#Machine Learning#MIT News#Artificial Intelligence
Peneliti MIT Temukan Metode Baru Deteksi LLM yang 'Pede' Tapi Salah

Peneliti MIT Temukan Metode Baru Deteksi LLM yang 'Pede' Tapi Salah

CAMBRIDGE, (19 MARET 2026)

Key Takeaway
  • Metode baru ini menggabungkan aleatoric uncertainty (keyakinan internal model) dengan epistemic uncertainty (perbedaan jawaban antar model berbeda) untuk mendeteksi hallucination.
  • Teknik ini terbukti lebih akurat dalam menguji reliabilitas AI pada tugas-tugas faktual dan penalaran matematika dibandingkan metode tradisional.
  • Penggunaan metrik Total Uncertainty (TU) dapat mengurangi biaya komputasi karena memerlukan jumlah query yang lebih sedikit untuk validasi.

Melansir laporan resmi dari MIT News, para peneliti di Massachusetts Institute of Technology telah memperkenalkan teknik baru yang lebih akurat untuk menilai reliabilitas prediksi pada Large Language Model (LLM). Masalah utama yang dihadapi pengguna saat ini adalah kecenderungan AI untuk mengalami overconfidence—di mana model memberikan jawaban yang salah namun dengan gaya bahasa yang sangat meyakinkan.

Penelitian yang dipimpin oleh Kimia Hamidieh, mahasiswa pascasarjana di EECS MIT, bersama tim dari MIT-IBM Watson AI Lab, menyoroti bahwa metode Uncertainty Quantification tradisional sering kali gagal. Metode lama biasanya hanya mengandalkan self-consistency, yakni memberikan prompt yang sama berulang kali ke satu model untuk melihat apakah jawabannya tetap sama. Namun, LLM yang canggih sekalipun bisa saja konsisten dalam kesalahannya.

Memahami Epistemic Uncertainty

Untuk mengatasi kelemahan tersebut, peneliti MIT beralih ke konsep epistemic uncertainty. Alih-alih hanya bertanya pada satu model, metode ini membandingkan jawaban dari sekelompok LLM yang berbeda, seperti ChatGPT, Claude, dan Gemini.

"Jika saya bertanya ke ChatGPT berulang kali dan ia memberi jawaban yang sama, itu tidak menjamin kebenarannya. Namun, jika saya beralih ke Claude atau Gemini dan mendapatkan jawaban berbeda, di situlah kita melihat adanya epistemic uncertainty," jelas Hamidieh.

Tim peneliti menggabungkan metrik ketidakkonsistenan internal (aleatoric) dengan perbedaan antar-model (epistemic) untuk menciptakan skor Total Uncertainty (TU). Dalam pengujian terhadap 10 tugas berat termasuk menjawab pertanyaan fakta dan logika matematika, metrik TU secara konsisten mengungguli metode penilaian standar lainnya dalam mengidentifikasi prediksi yang tidak dapat dipercaya.

Pendekatan Ensemble yang Efisien

Salah satu temuan menarik adalah bahwa metode ini bekerja paling baik ketika menggunakan ensemble kecil dari model-model yang dikembangkan oleh perusahaan berbeda. Teknik ini juga ditemukan lebih hemat energi dan biaya karena membutuhkan lebih sedikit query dibandingkan metode self-consistency murni yang boros sumber daya Cloud Computing.

Meski sangat efektif untuk pertanyaan yang memiliki jawaban pasti, para peneliti mencatat bahwa metode ini masih memerlukan penyesuaian untuk tugas yang bersifat open-ended atau kreatif, di mana jawaban benar bisa sangat beragam secara linguistik.

Dampak bagi Indonesia

Inovasi ini memiliki relevansi tinggi bagi ekosistem digital di Indonesia, terutama dalam implementasi AI di sektor publik dan komersial:

  1. Sektor Fintech dan Perbankan: Bank digital di Indonesia (seperti BCA, Bank Jago, atau Seabank) yang mulai mengintegrasikan AI Agent untuk layanan nasabah dapat menggunakan metode ini untuk mencegah salah informasi terkait produk finansial atau regulasi OJK yang sensitif.
  2. Efisiensi Biaya Operasional: Bagi startup lokal yang membangun aplikasi di atas API LLM berbayar, pengurangan jumlah query untuk validasi dapat memangkas biaya operasional bulanan hingga puluhan juta rupiah (estimasi penghematan 20-30% pada biaya token API).
  3. Keamanan Informasi: Di tengah maraknya konten hoaks, teknologi yang mampu mendeteksi hallucination pada AI akan sangat krusial bagi platform media dan edukasi di Indonesia guna memastikan konten yang dihasilkan LLM dalam bahasa Indonesia tetap faktual.

Artikel ini akan diperbarui seiring tersedianya informasi baru. Join Komunitas Rekayasa AI di Discord untuk diskusi lebih lanjut.

Advertisement

Ad space available

✍️

Ditulis oleh

Tim Rekayasa AI

Kontributor Rekayasa AI yang passionate tentang teknologi AI dan dampaknya di Indonesia.

Bagikan:𝕏fin