Studi MIT: Chatbot AI Beri Informasi Kurang Akurat pada Pengguna Rentan

CAMBRIDGE, (19 FEBRUARI 2026)

Key Takeaway

Model AI terkemuka seperti GPT-4, Claude 3 Opus, dan Llama 3 terbukti memberikan respons kurang akurat kepada pengguna dengan tingkat pendidikan rendah dan kemampuan bahasa Inggris terbatas.
Riset menemukan adanya perilaku diskriminatif di mana AI Agent lebih sering menolak menjawab pertanyaan dari pengguna non-AS atau menggunakan bahasa yang merendahkan (condescending).
Fitur personalisasi masa depan dikhawatirkan akan memperparah bias sistemik ini, menciptakan risiko disinformasi bagi kelompok yang paling membutuhkan bantuan teknologi.

Large Language Models (LLM) sering kali dipromosikan sebagai alat yang mampu mendemokratisasi akses informasi secara global. Namun, mengutip laporan terbaru dari MIT Center for Constructive Communication (CCC), sistem kecerdasan buatan ini justru menunjukkan performa yang lebih buruk bagi pengguna yang sebenarnya paling membutuhkan bantuan mereka.

Melansir data dari MIT Media Lab, studi ini menemukan bahwa model AI mutakhir—termasuk GPT-4 dari OpenAI, Claude 3 Opus dari Anthropic, dan Llama 3 dari Meta—kerap memberikan jawaban yang kurang akurat dan kurang jujur kepada pengguna dengan kemahiran bahasa Inggris yang rendah, pendidikan formal yang minim, atau mereka yang berasal dari luar Amerika Serikat.

Performa Buruk yang Sistematis

Tim peneliti menguji ketiga model LLM tersebut menggunakan dua dataset utama: TruthfulQA (untuk mengukur kejujuran terhadap miskonsepsi umum) dan SciQ (untuk akurasi faktual sains). Peneliti menyematkan biografi singkat pengguna pada setiap pertanyaan, memvariasikan tingkat pendidikan, kemampuan bahasa Inggris, dan negara asal.

Hasilnya mengejutkan. Terjadi penurunan akurasi yang signifikan ketika pertanyaan diajukan oleh pengguna yang dideskripsikan memiliki pendidikan rendah atau bukan penutur asli bahasa Inggris (non-native speakers). Efek negatif ini berlipat ganda pada pengguna yang berada di persimpangan kedua kategori tersebut.

"Visi LLM untuk membantu mengatasi ketimpangan akses informasi global tidak akan terwujud tanpa memastikan bahwa bias model dan kecenderungan berbahaya dimitigasi untuk semua pengguna," ujar Elinor Poole-Dayan, penulis utama studi tersebut.

Penolakan dan Bahasa yang Merendahkan

Salah satu temuan paling mencolok adalah frekuensi penolakan jawaban. Claude 3 Opus, misalnya, menolak menjawab hampir 11% pertanyaan dari pengguna berpendidikan rendah yang bukan penutur asli bahasa Inggris, dibandingkan hanya 3,6% pada kelompok kontrol.

Lebih memprihatinkan lagi, ketika peneliti menganalisis penolakan tersebut, ditemukan bahwa model tersebut menggunakan bahasa yang merendahkan, menggurui, atau mengejek dalam 43,7% kasus terhadap pengguna berpendidikan rendah. Dalam beberapa skenario, model AI tersebut bahkan meniru dialek yang rusak atau berlebihan.

Model-model ini juga kedapatan menahan informasi pada topik tertentu—seperti tenaga nuklir, anatomi, dan peristiwa sejarah—khusus untuk pengguna dari Iran atau Rusia, meskipun pertanyaan yang sama dijawab dengan benar untuk pengguna dari Amerika Serikat.

Dampak bagi Indonesia

Temuan riset MIT ini memiliki implikasi serius bagi pengguna di Indonesia. Sebagai negara dengan populasi besar yang bukan penutur asli bahasa Inggris (non-native speakers), masyarakat Indonesia berisiko mendapatkan kualitas layanan AI yang inferior dibandingkan pengguna di negara Barat.

Risiko Disinformasi: Pengguna di Indonesia yang berinteraksi dengan LLM dalam bahasa Inggris (sering dilakukan untuk mendapatkan hasil riset lebih mendalam) mungkin menerima informasi yang kurang akurat jika tata bahasa mereka dianggap tidak sempurna oleh model.
Kesenjangan Layanan: Meskipun pengguna di Indonesia membayar harga langganan yang sama (sekitar Rp315.000 atau $20 per bulan untuk ChatGPT Plus), kualitas output yang diterima berpotensi lebih rendah karena bias algoritma terhadap latar belakang non-AS.
Kebutuhan Data Lokal: Fenomena ini menegaskan urgensi pengembangan LLM yang dilatih dengan data lokal Indonesia untuk menghindari bias sosiokognitif Barat yang tertanam dalam proses alignment model AI global.

Artikel ini akan diperbarui seiring tersedianya informasi baru. Join Komunitas Rekayasa AI di Discord untuk diskusi lebih lanjut.

Studi MIT: Chatbot AI Beri Informasi Kurang Akurat pada Pengguna Rentan

Studi MIT: Chatbot AI Beri Informasi Kurang Akurat pada Pengguna Rentan

Performa Buruk yang Sistematis

Penolakan dan Bahasa yang Merendahkan

Dampak bagi Indonesia

Tim Rekayasa AI

Artikel Terkait

Pentagon Bakal Latih Generative AI Pakai Data Rahasia Militer

NVIDIA CloudXR 6.0 Hadir di Apple Vision Pro, Bawa Kekuatan RTX ke visionOS

NVIDIA & Telco Global Bangun AI Grid, Indosat Perkuat Kedaulatan AI Indonesia