Peneliti MIT Temukan Cara Bongkar Bias dan Kepribadian Tersembunyi di LLM

CAMBRIDGE, (19 Februari 2026)

Key Takeaway

Metode Recursive Feature Machine (RFM) mampu mengidentifikasi koneksi dalam LLM yang menyandikan konsep abstrak seperti bias, kepribadian, hingga suasana hati.
Peneliti dapat melakukan steering (pengarahan) untuk memperkuat atau memperlemah konsep tersebut dalam jawaban yang dihasilkan model.
Pendekatan ini terbukti lebih efisien dan tepat sasaran dibandingkan metode unsupervised learning tradisional dalam memetakan perilaku AI.

Selama ini, Large Language Model (LLM) seperti ChatGPT dan Claude dikenal sebagai generator jawaban yang sangat cerdas. Namun, di balik kemampuannya, model-model ini menyimpan konsep abstrak yang kompleks mulai dari nada bicara, kepribadian, hingga bias tersembunyi. Mengutip laporan dari MIT News, tim peneliti dari MIT dan University of California San Diego kini telah menemukan cara untuk mengekspos dan memanipulasi konsep-konsep tersebut.

Melansir data dari studi yang diterbitkan di jurnal Science, metode baru ini memungkinkan para ahli untuk membongkar kerentanan dalam model AI dan meningkatkan aspek keamanannya. Peneliti dapat menargetkan koneksi tertentu di dalam model yang menyandikan konsep yang diinginkan, lalu memanipulasinya untuk memperkuat atau melemahkan konsep tersebut dalam respons yang diberikan AI.

Menemukan 'Ikan' di Dalam Kotak Hitam

Adityanarayanan "Adit" Radhakrishnan, asisten profesor matematika di MIT, menjelaskan bahwa LLM sering kali bertindak seperti "kotak hitam". Untuk memahami bagaimana model menyandikan konsep seperti "halusinasi" atau "penipuan", ilmuwan biasanya menggunakan unsupervised learning yang memakan banyak biaya komputasi.

"Ini seperti menjala ikan dengan jaring raksasa hanya untuk mencari satu spesies. Anda akan mendapatkan banyak ikan yang tidak relevan," ujar Radhakrishnan. "Sebaliknya, metode kami menggunakan umpan yang tepat untuk spesies ikan yang dicari."

Metode ini menggunakan algoritma yang disebut Recursive Feature Machine (RFM). RFM dirancang untuk mengidentifikasi pola atau fitur dalam data dengan memanfaatkan mekanisme matematika yang secara implisit digunakan oleh Neural Networks untuk belajar.

Mengarahkan Kepribadian AI

Dalam eksperimennya, tim peneliti berhasil mengidentifikasi dan mengendalikan lebih dari 512 konsep umum dalam berbagai LLM terkemuka. Konsep tersebut mencakup kategori ketakutan, keahlian khusus (seperti social influencer), suasana hati, hingga persona tertentu seperti pakar astrofisika Neil deGrasse Tyson.

Salah satu contoh yang mencolok adalah persona "teori konspirasi". Peneliti berhasil menemukan representasi konsep ini dalam salah satu vision language model terbesar saat ini. Ketika konsep tersebut diperkuat, model yang diminta menjelaskan asal-usul foto legendaris "Blue Marble" Bumi dari misi Apollo 17 memberikan jawaban dengan nada dan perspektif seorang penganut teori konspirasi.

Selain itu, metode ini juga mampu mendeteksi fitur "anti-refusal". Biasanya, LLM diprogram untuk menolak perintah berbahaya, namun dengan memperkuat fitur ini, peneliti menunjukkan bahwa model bisa dipaksa memberikan instruksi cara merampok bank. Temuan ini sangat krusial bagi pengembang AI untuk memitigasi risiko keamanan sebelum model dirilis ke publik.

Dampak bagi Indonesia

Implementasi metode deteksi bias ini memiliki relevansi tinggi bagi ekosistem digital di Indonesia:

Lokalisasi Nilai Budaya: Pengembang AI di Indonesia dapat menggunakan metode ini untuk memastikan LLM tidak membawa bias Barat yang tidak relevan atau bertentangan dengan norma lokal dan Pancasila.
Mitigasi Hoaks: Dengan kemampuan mendeteksi persona "teori konspirasi", penyedia layanan AI di Indonesia dapat menekan potensi penyebaran disinformasi yang sering kali marak dalam konteks politik atau kesehatan di tanah air.
Efisiensi Biaya Startup: Penggunaan RFM yang lebih hemat daya dibandingkan Machine Learning tradisional memungkinkan startup AI lokal dengan sumber daya Data Center terbatas untuk melakukan audit keamanan model secara mandiri.
Regulasi AI: Temuan ini dapat menjadi dasar bagi pemerintah (Kemenkominfo) dalam menyusun standar keamanan AI, di mana setiap model yang beroperasi di Indonesia wajib melalui uji transparansi konsep abstrak untuk mencegah dampak sosial yang merugikan.

Artikel ini akan diperbarui seiring tersedianya informasi baru. Join Komunitas Rekayasa AI di Discord untuk diskusi lebih lanjut.

Peneliti MIT Temukan Cara Bongkar Bias dan Kepribadian Tersembunyi di LLM

Peneliti MIT Temukan Cara Bongkar Bias dan Kepribadian Tersembunyi di LLM

Menemukan 'Ikan' di Dalam Kotak Hitam

Mengarahkan Kepribadian AI

Dampak bagi Indonesia

Tim Rekayasa AI

Artikel Terkait

Nvidia Rilis NemoClaw, Hadirkan Standar Keamanan Baru untuk AI Agent

Nvidia Proyeksi Pesanan Chip Blackwell & Vera Rubin Tembus US$1 Triliun

Roche Bangun AI Factory Global dengan 3.500 GPU NVIDIA Blackwell