Terobosan MIT: CompreSSM Membuat Model AI Lebih Ramping dan Cepat Saat Pelatihan

CAMBRIDGE, MA, (9 April 2026)

Key Takeaway

CompreSSM adalah algoritma baru dari MIT CSAIL yang mengkompresi model AI selama pelatihan, bukan setelahnya, mengatasi masalah biaya dan waktu yang mahal.
Metode ini memanfaatkan Control Theory untuk mengidentifikasi dan membuang komponen yang tidak berguna dari model, membuatnya lebih kecil dan lebih cepat secara dinamis.
Hasilnya, model yang dikompresi oleh CompreSSM mempertahankan akurasi tinggi sambil mencapai kecepatan pelatihan hingga 4 kali lebih cepat, khususnya pada arsitektur State-Space Models (SSM) seperti Mamba.

Melansir laporan dari MIT News, peneliti dari Computer Science and Artificial Intelligence Laboratory (CSAIL) Massachusetts Institute of Technology (MIT) telah mengembangkan teknik inovatif yang memungkinkan model AI menjadi lebih ramping dan cepat bahkan saat mereka masih dalam tahap pelatihan. Metode ini, yang disebut CompreSSM, menjanjikan efisiensi signifikan dalam pengembangan Artificial Intelligence (AI) dengan mengurangi biaya komputasi, waktu, dan energi.

Menurut Rachel Gordon dari MIT CSAIL, pelatihan model AI berukuran besar secara tradisional sangat mahal dalam hal uang, waktu, energi, dan sumber daya komputasi. Pendekatan sebelumnya untuk mendapatkan model yang lebih kecil dan lebih cepat melibatkan pelatihan model besar terlebih dahulu kemudian memangkasnya, atau melatih model kecil dari awal dengan menerima performance yang lebih lemah. CompreSSM menghindari dilema ini dengan mengkompresi model selama pelatihan, bukan setelahnya.

CompreSSM, yang dikembangkan bersama oleh peneliti dari Max Planck Institute for Intelligent Systems, European Laboratory for Learning and Intelligent Systems, ETH, dan Liquid AI, menargetkan keluarga arsitektur AI yang dikenal sebagai State-Space Models (SSM). SSM adalah fondasi untuk aplikasi mulai dari language processing hingga audio generation dan robotics. Dengan meminjam perangkat matematika dari Control Theory, peneliti dapat mengidentifikasi bagian mana dari model yang esensial dan mana yang merupakan "beban mati" (dead weight), kemudian secara bedah menghilangkan komponen yang tidak perlu sejak dini dalam proses pelatihan.

"Ini pada dasarnya adalah teknik untuk membuat model tumbuh lebih kecil dan lebih cepat saat mereka berlatih," kata Makram Chahine, seorang PhD student di Electrical Engineering and Computer Science, afiliasi CSAIL, dan penulis utama paper tersebut. "Selama pembelajaran, mereka juga menyingkirkan bagian-bagian yang tidak berguna bagi pengembangan mereka."

Wawasan kunci di balik CompreSSM adalah bahwa kepentingan relatif dari berbagai komponen dalam model-model ini menjadi stabil secara mengejutkan di awal pelatihan. Dengan menggunakan kuantitas matematika yang disebut Hankel singular values, yang mengukur seberapa besar setiap internal state berkontribusi pada perilaku keseluruhan model, tim menunjukkan bahwa mereka dapat dengan andal memberi peringkat dimensi mana yang penting dan mana yang tidak, hanya setelah sekitar 10 persen dari proses pelatihan. Setelah peringkat tersebut ditetapkan, komponen yang kurang penting dapat dibuang dengan aman, dan 90 persen sisa pelatihan berjalan dengan kecepatan model yang jauh lebih kecil.

"Yang menarik dari pekerjaan ini adalah bahwa ia mengubah kompresi dari sebuah pemikiran kemudian (afterthought) menjadi bagian dari proses pembelajaran itu sendiri," kata penulis senior Daniela Rus, MIT professor dan director CSAIL. "Alih-alih melatih model besar dan kemudian mencari cara untuk membuatnya lebih kecil, CompreSSM memungkinkan model menemukan struktur efisiennya sendiri saat belajar. Itu adalah cara yang fundamental berbeda untuk memikirkan pembangunan sistem AI."

Hasilnya sangat mencolok. Pada benchmark image classification, model yang dikompresi mempertahankan akurasi yang hampir sama dengan full-sized counterparts mereka, sementara pelatihan hingga 1,5 kali lebih cepat. Sebuah model yang dikompresi menjadi sekitar seperempat dari state dimension aslinya mencapai 85,7 persen akurasi pada benchmark CIFAR-10, dibandingkan dengan hanya 81,8 persen untuk model yang dilatih pada ukuran yang lebih kecil dari awal. Pada Mamba, salah satu arsitektur state-space yang paling banyak digunakan, metode ini mencapai percepatan pelatihan sekitar 4 kali lipat, mengkompresi model 128-dimensi menjadi sekitar 12 dimensi sambil mempertahankan performance yang kompetitif.

"Anda mendapatkan performance dari model yang lebih besar, karena Anda menangkap sebagian besar dinamika kompleks selama fase warm-up, lalu hanya menyimpan states yang paling berguna," kata Chahine. "Model ini masih mampu berkinerja pada level yang lebih tinggi daripada melatih model kecil dari awal."

Yang membuat CompreSSM berbeda dari pendekatan yang ada adalah landasan teorinya. Metode pruning konvensional melatih model penuh dan kemudian menghilangkan parameters setelah fakta, yang berarti Anda masih membayar biaya komputasi penuh untuk melatih model besar. Knowledge distillation, teknik populer lainnya, membutuhkan pelatihan model "guru" (teacher model) besar hingga selesai dan kemudian melatih model "murid" (student model) kedua yang lebih kecil di atasnya, yang pada dasarnya menggandakan upaya pelatihan. CompreSSM menghindari kedua biaya ini dengan membuat keputusan kompresi yang terinformasi di tengah jalan.

Tim membandingkan CompreSSM secara langsung dengan kedua alternatif tersebut. Dibandingkan dengan Hankel nuclear norm regularization, teknik spektral yang baru-baru ini diusulkan untuk mendorong compact state-space models, CompreSSM lebih dari 40 kali lebih cepat, sambil juga mencapai akurasi yang lebih tinggi. Pendekatan regularization memperlambat pelatihan sekitar 16 kali karena memerlukan komputasi eigenvalue yang mahal pada setiap gradient step, dan bahkan kemudian, model yang dihasilkan memiliki performance yang lebih rendah. Terhadap Knowledge distillation pada CIFAR-10, CompreSSM memiliki keuntungan yang jelas untuk model yang sangat dikompresi: pada state dimensions yang lebih kecil, model distilled mengalami penurunan akurasi yang signifikan, sementara model yang dikompresi CompreSSM mempertahankan performance mendekati penuh. Dan karena distillation memerlukan forward pass melalui teacher dan student pada setiap training step, bahkan model student yang lebih kecil dilatih lebih lambat daripada baseline ukuran penuh.

Para peneliti secara matematis membuktikan bahwa pentingnya individual model states berubah dengan mulus selama pelatihan, berkat penerapan Weyl's theorem, dan secara empiris menunjukkan bahwa peringkat relatif dari states tersebut tetap stabil. Bersama-sama, temuan ini memberikan kepercayaan kepada para praktisi bahwa dimensi yang diidentifikasi sebagai tidak signifikan di awal tidak akan tiba-tiba menjadi krusial di kemudian hari.

Metode ini juga dilengkapi dengan safety net yang pragmatis. Jika langkah kompresi menyebabkan penurunan performance yang tidak terduga, para praktisi dapat kembali ke checkpoint yang disimpan sebelumnya. "Ini memberi orang kontrol atas seberapa banyak mereka bersedia membayar dalam hal performance, daripada harus menentukan energy threshold yang kurang intuitif," jelas Chahine.

Ada beberapa batasan praktis pada teknik ini. CompreSSM bekerja paling baik pada model yang menunjukkan korelasi kuat antara internal state dimension dan overall performance, sebuah properti yang bervariasi di seluruh tugas dan arsitektur. Metode ini sangat efektif pada model multi-input, multi-output (MIMO), di mana hubungan antara state size dan expressivity adalah yang terkuat. Untuk arsitektur per-channel, single-input, single-output, peningkatannya lebih sederhana, karena model-model tersebut kurang sensitif terhadap perubahan state dimension sejak awal.

Teori ini berlaku paling bersih untuk linear time-invariant systems, meskipun tim telah mengembangkan ekstensi untuk arsitektur input-dependent, time-varying yang semakin populer. Dan karena keluarga State-Space Models meluas ke arsitektur seperti linear attention, area minat yang berkembang sebagai alternatif dari Transformers tradisional, cakupan aplikasi potensialnya sangat luas.

Chahine dan kolaboratornya melihat pekerjaan ini sebagai langkah awal. Tim telah menunjukkan ekstensi untuk linear time-varying systems seperti Mamba, dan arah masa depan termasuk mendorong CompreSSM lebih jauh ke matrix-valued dynamical systems yang digunakan dalam mekanisme linear attention, yang akan membawa teknik ini lebih dekat ke arsitektur Transformers yang menjadi dasar sebagian besar sistem AI terbesar saat ini.

"Ini harus menjadi langkah pertama, karena di sinilah teorinya rapi dan pendekatannya dapat tetap berprinsip," kata Chahine. "Ini adalah batu loncatan untuk kemudian meluas ke arsitektur lain yang digunakan orang di industri saat ini."

"Pekerjaan Chahine dan rekan-rekannya memberikan perspektif yang menarik, berlandaskan teori tentang kompresi untuk modern State-Space Models (SSM)," kata Antonio Orvieto, ELLIS Institute Tübingen principal investigator dan MPI for Intelligent Systems independent group leader, yang tidak terlibat dalam penelitian tersebut. "Metode ini memberikan bukti bahwa state dimension dari model-model ini dapat dikurangi secara efektif selama pelatihan dan bahwa perspektif control-theoretic dapat berhasil memandu prosedur ini. Pekerjaan ini membuka jalan baru untuk penelitian di masa depan, dan algoritma yang diusulkan memiliki potensi untuk menjadi pendekatan standar saat pre-training large SSM-based models."

Penelitian ini, yang diterima sebagai conference paper di International Conference on Learning Representations 2026, akan dipresentasikan akhir bulan ini. Penelitian ini didukung, sebagian, oleh Max Planck ETH Center for Learning Systems, Hector Foundation, Boeing, dan U.S. Office of Naval Research.

Dampak bagi Indonesia

Terobosan CompreSSM dari MIT ini memiliki potensi dampak signifikan bagi ekosistem AI di Indonesia. Dengan kemampuan untuk membuat model AI lebih ramping dan mempercepat proses pelatihan, pengembang AI di Indonesia dapat merasakan penurunan biaya operasional yang substansial, terutama dalam penggunaan GPU dan Data Center.

Efisiensi biaya ini dapat mendorong inovasi dan adopsi AI di berbagai sektor, termasuk Fintech, kesehatan, smart city, dan pertanian, di mana pengembangan model AI seringkali terhambat oleh keterbatasan anggaran dan sumber daya komputasi. Startup AI lokal, yang mungkin memiliki akses terbatas ke infrastruktur Cloud Computing premium atau GPU berkinerja tinggi, dapat memanfaatkan teknik ini untuk melatih model yang lebih kompleks dengan biaya yang lebih terjangkau.

Selain itu, model AI yang lebih kecil dan lebih cepat memungkinkan implementasi AI Agent pada perangkat dengan sumber daya terbatas (edge computing dan perangkat seluler). Ini sangat relevan untuk Indonesia, di mana penetrasi perangkat seluler tinggi dan konektivitas internet mungkin bervariasi di berbagai daerah. Kemampuan untuk menjalankan model AI yang efisien secara lokal pada perangkat dapat meningkatkan privasi data, mengurangi latensi, dan membuka peluang untuk aplikasi AI yang lebih luas di daerah terpencil atau dengan infrastruktur terbatas.

Pada akhirnya, CompreSSM dapat berkontribusi pada demokratisasi akses terhadap teknologi AI di Indonesia, memungkinkan lebih banyak pelaku usaha kecil dan menengah (UKM) untuk mengintegrasikan solusi AI ke dalam operasional mereka tanpa investasi awal yang besar, sekaligus mengurangi jejak karbon dari operasional Data Center yang intensif energi.

Artikel ini akan diperbarui seiring tersedianya informasi baru. Join Komunitas Rekayasa AI di Discord untuk diskusi lebih lanjut.

Terobosan MIT: CompreSSM Pangkas Ukuran Model AI, Pelatihan Lebih Cepat

Terobosan MIT: CompreSSM Membuat Model AI Lebih Ramping dan Cepat Saat Pelatihan

Dampak bagi Indonesia

Tim Rekayasa AI

Artikel Terkait

Biaya AI Membengkak: Industri Berjuang Kendalikan Pengeluaran 'Token' yang Merajalela

AirTrunk Gelontorkan $30 Miliar Bangun 5GW Data Center AI di India

Google Bayar SpaceX US$920 Juta Per Bulan demi Perkuat Infrastruktur AI