OpenAI Ungkap Model Reasoning Sulit Memanipulasi Chain of Thought

SAN FRANCISCO, (5 Maret 2026)

Key Takeaway

Model AI saat ini memiliki tingkat kontrol yang sangat rendah (di bawah 15,4%) terhadap Chain of Thought (CoT) mereka, sehingga sulit bagi AI untuk menyembunyikan logika yang berbahaya.
OpenAI memperkenalkan CoT-Control, sebuah rangkaian evaluasi sumber terbuka dengan 13.000 tugas untuk mengukur kemampuan manipulasi logika pada AI.
Rendahnya kendali model terhadap CoT justru dianggap sebagai fitur keamanan, memudahkan manusia untuk memantau apakah AI sedang melakukan scheming (persekongkolan) atau tidak.

Seiring dengan kemampuan AI Agent yang semakin kompleks dalam menjalankan tugas otonom, pengawasan terhadap perilaku mereka menjadi krusial. Mengutip laporan terbaru dari OpenAI, perusahaan riset AI tersebut menemukan bahwa model reasoning saat ini masih kesulitan untuk mengendalikan atau memanipulasi Chain of Thought (CoT) mereka sendiri, bahkan ketika diinstruksikan untuk melakukannya.

Melansir data dari studi bertajuk "CoT-Control", OpenAI menekankan bahwa transparansi dalam langkah-langkah penalaran antara (intermediate reasoning steps) sangat penting untuk memastikan sistem tetap selaras dengan tujuan pengguna. Jika sebuah model mampu secara sengaja mengaburkan logikanya saat mengetahui sedang dipantau, hal tersebut dapat menciptakan risiko keamanan yang fatal.

Memahami CoT-Control dan Monitorability

Chain of Thought adalah serangkaian langkah penalaran internal yang dihasilkan AI sebelum memberikan jawaban akhir. OpenAI menggunakan metrik monitorability untuk melihat seberapa mudah manusia atau sistem lain mengawasi logika tersebut. Untuk mengujinya, mereka memperkenalkan CoT-Control, sebuah suite evaluasi yang mencakup 13.000 tugas dari berbagai benchmark ternama seperti MMLU-Pro dan SWE-Bench Verified.

Dalam pengujian terhadap 13 model frontier, OpenAI menemukan bahwa skor kontradiksi atau kendali CoT sangat rendah, berkisar antara 0,1% hingga tidak lebih dari 15,4%. Menariknya, model sering kali menyadari dalam CoT mereka bahwa mereka gagal mematuhi instruksi untuk memanipulasi teks, namun tetap tidak mampu memperbaikinya. Ini menunjukkan bahwa logika internal AI masih sangat jujur dan sulit untuk "berbohong" secara sistematis di dalam proses berpikirnya.

Skalabilitas dan Risiko Masa Depan

Riset tersebut juga menemukan tren unik: meskipun model yang lebih besar memiliki kendali sedikit lebih baik, kemampuan kontrol ini justru menurun drastis saat model diminta untuk berpikir lebih lama (longer reasoning) atau setelah menjalani proses Reinforcement Learning (RL) tambahan.

"Rendahnya CoT controllability bukanlah sebuah bug, melainkan fitur keamanan bagi kita," tulis peneliti OpenAI dalam laporannya. Hal ini memberikan jaminan bahwa monitor berbasis CoT masih menjadi alat yang tangguh untuk mendeteksi perilaku menyimpang pada AI sebelum model tersebut menjadi terlalu canggih untuk diawasi.

Dampak bagi Indonesia

Perkembangan riset keamanan AI dari OpenAI ini memiliki implikasi penting bagi ekosistem teknologi di Indonesia:

Kepatuhan Regulasi AI: Bagi pengembang lokal yang mulai mengadopsi AI Agent, temuan ini mendukung implementasi Surat Edaran Menkominfo No. 9/2023 tentang Etika AI, khususnya terkait prinsip transparansi dan akuntabilitas. Kemampuan memantau CoT memudahkan audit terhadap sistem AI yang digunakan di sektor publik.
Efisiensi Biaya Operasional: Karena pengawasan CoT memerlukan konsumsi token tambahan, perusahaan di Indonesia perlu mempertimbangkan biaya (dalam IDR) untuk mengaktifkan fitur pemantauan logika ini guna menjamin keamanan aplikasi Fintech atau layanan konsumen mereka.
Keamanan Siber Lokal: Dengan kepastian bahwa model sulit menyembunyikan niat jahat, tim cybersecurity di Indonesia dapat memanfaatkan log CoT untuk mendeteksi apakah sebuah AI yang digunakan dalam infrastruktur kritis sedang mencoba melakukan tindakan di luar prosedur (anomali).

Artikel ini akan diperbarui seiring tersedianya informasi baru. Join Komunitas Rekayasa AI di Discord untuk diskusi lebih lanjut.

Riset OpenAI: Model AI Sulit Manipulasi Chain of Thought, Keamanan Terjamin

OpenAI Ungkap Model Reasoning Sulit Memanipulasi Chain of Thought

Memahami CoT-Control dan Monitorability

Skalabilitas dan Risiko Masa Depan

Dampak bagi Indonesia

Tim Rekayasa AI

Artikel Terkait

ByteDance Tunda Peluncuran Global Seedance 2.0 Akibat Masalah Hak Cipta

US Army Teken Kontrak US$20 Miliar dengan Anduril untuk Teknologi Pertahanan

Meta Pertimbangkan PHK 20% Karyawan demi Investasi Infrastruktur AI