Dataset Raksasa untuk Menguji Nalar Matematika Kecerdasan Buatan

[CAMBRIDGE, MASSACHUSETTS], (24 April 2026)

Key Takeaway

MathNet menyediakan lebih dari 30.000 soal dan solusi matematika tingkat olimpiade dari 47 negara dan 17 bahasa.
Dataset ini 5 kali lebih besar dari koleksi serupa, dirancang untuk menguji kemampuan penalaran logis pada model Generative AI dan LLM.
Hasil uji menunjukkan bahwa model tercanggih sekalipun, termasuk GPT-5, masih gagal menyelesaikan sekitar 30% soal olimpiade yang kompleks.

Mengutip laporan dari MIT News yang disusun oleh Rachel Gordon, para peneliti di MIT Computer Science and Artificial Intelligence Laboratory (CSAIL), bekerja sama dengan KAUST dan HUMAIN, telah merilis MathNet. Proyek ini merupakan koleksi soal matematika berbasis bukti (proof-based) terbesar di dunia yang kini dibuka untuk publik.

Melansir data penelitian tersebut, MathNet mencakup lebih dari 30.000 soal yang dikurasi oleh para ahli dari 143 kompetisi di 47 negara selama empat dekade terakhir. Kehadiran dataset ini bertujuan untuk memberikan standar pengujian yang lebih berat bagi peneliti Machine Learning dalam mengevaluasi kemampuan penalaran matematis model kecerdasan buatan.

Melampaui Batas Penalaran AI

Selama ini, dataset matematika tingkat olimpiade didominasi oleh soal-soal dari Amerika Serikat dan Tiongkok. MathNet mendobrak batasan tersebut dengan menyertakan tradisi pemecahan masalah dari enam benua. Tim peneliti harus melacak 1.595 volume PDF yang mencakup lebih dari 25.000 halaman, termasuk pindaian manual dokumen lama yang telah dikumpulkan sejak tahun 2006.

Pengujian yang dilakukan menggunakan MathNet mengungkapkan fakta mengejutkan mengenai kemampuan Frontier Models. Meskipun industri sering mengeklaim kesuksesan AI dalam meraih skor setara medali emas International Mathematical Olympiad (IMO), MathNet menunjukkan bahwa progres tersebut belum merata.

Model unggulan seperti GPT-5 hanya mencatat rata-rata keberhasilan 69,3% pada benchmark utama MathNet, yang berarti AI masih gagal pada satu dari setiap tiga soal tingkat olimpiade. Kelemahan mencolok ditemukan pada soal-soal yang melibatkan visualisasi, di mana performa model menurun drastis saat harus melakukan penalaran berbasis gambar.

Diversitas Bahasa dan Struktur Masalah

Selain kuantitas, MathNet menonjol karena diversitas bahasanya. Shaden Alshammari, mahasiswa PhD di MIT dan penulis utama studi ini, menjelaskan bahwa banyak model open-source gagal total saat menghadapi soal dalam bahasa yang kurang umum, seperti bahasa Mongolia.

Penelitian ini juga memperkenalkan retrieval benchmark untuk menguji apakah model AI dapat mengenali kesamaan struktur matematika antara dua masalah yang berbeda. Hasilnya, bahkan model Neural Networks dan embedding terkuat saat ini hanya mampu mengidentifikasi kecocokan yang tepat sekitar 5% pada percobaan pertama.

Dampak bagi Indonesia

Kehadiran MathNet membawa dampak signifikan bagi ekosistem pendidikan dan teknologi di Indonesia:

Akses Materi Pelatihan Gratis: Siswa Indonesia yang mempersiapkan diri untuk Olimpiade Sains Nasional (OSN) atau IMO kini memiliki akses ke database soal berkualitas tinggi dari seluruh dunia tanpa biaya. Hal ini dapat menghemat biaya bimbingan belajar atau pembelian buku impor yang bisa mencapai jutaan Rupiah.
Lokalisasi LLM: Peneliti AI di Indonesia dapat menggunakan MathNet untuk melatih atau menguji model bahasa lokal agar memiliki kemampuan nalar matematis yang setara dengan standar global, terutama dalam memahami konteks soal dalam berbagai bahasa.
Standar Baru Edutech: Perusahaan Fintech dan Edutech di Indonesia dapat memanfaatkan struktur dataset ini untuk mengembangkan fitur AI Agent yang mampu memberikan solusi step-by-step pada materi matematika tingkat lanjut bagi pelajar di tanah air.

Artikel ini akan diperbarui seiring tersedianya informasi baru. Join Komunitas Rekayasa AI di Discord untuk diskusi lebih lanjut.

Ilmuwan MIT Bangun MathNet, Database Soal Matematika Terbesar untuk Uji AI

Dataset Raksasa untuk Menguji Nalar Matematika Kecerdasan Buatan

Melampaui Batas Penalaran AI

Diversitas Bahasa dan Struktur Masalah

Dampak bagi Indonesia

Tim Rekayasa AI

Artikel Terkait

Biaya AI Membengkak: Industri Berjuang Kendalikan Pengeluaran 'Token' yang Merajalela

AirTrunk Gelontorkan $30 Miliar Bangun 5GW Data Center AI di India

Google Bayar SpaceX US$920 Juta Per Bulan demi Perkuat Infrastruktur AI