Benchmark AI yang Ada Rusak: Mengapa Kita Butuh HAIC benchmarks?

LONDON, (31 Maret 2026)

Key Takeaway

Benchmark AI tradisional yang membandingkan performa mesin vs. manusia dalam tugas terisolasi gagal menangkap kinerja AI di dunia nyata.
Penggunaan AI di lingkungan kerja yang kompleks, melibatkan tim manusia dan alur kerja organisasi, seringkali tidak sesuai dengan hasil benchmark awal, menyebabkan pemborosan sumber daya dan erosi kepercayaan.
Angela Aristidou mengusulkan pendekatan "HAIC benchmarks" (Human–AI, Context-Specific Evaluation) yang mengevaluasi AI berdasarkan kinerja tim, dampak jangka panjang, kualitas koordinasi, dan efek sistemik.

Selama beberapa dekade, Artificial Intelligence (AI) telah dievaluasi melalui pertanyaan apakah mesin dapat mengungguli manusia. Mulai dari catur hingga matematika tingkat lanjut, dari coding hingga penulisan esai, performa AI models dan applications diuji terhadap individu manusia yang menyelesaikan tugas.

Framing ini menarik: perbandingan AI versus manusia pada masalah terisolasi dengan jawaban benar atau salah yang jelas mudah distandarisasi, dibandingkan, dan dioptimalkan. Ini menghasilkan peringkat dan berita utama.

Namun, ada masalah: AI hampir tidak pernah digunakan seperti yang di-benchmark. Mengutip laporan dari MIT Technology Review, meskipun peneliti dan industri telah mulai meningkatkan benchmarking dengan bergerak melampaui tes statis ke dynamic evaluation methods, inovasi ini hanya menyelesaikan sebagian masalah. Hal ini karena mereka masih mengevaluasi performa AI di luar tim manusia dan alur kerja organisasi di mana kinerja dunia nyatanya pada akhirnya terungkap.

Saat AI dievaluasi pada tingkat tugas dalam ruang hampa, ia digunakan dalam lingkungan yang berantakan dan kompleks di mana ia biasanya berinteraksi dengan lebih dari satu orang. Performanya (atau ketiadaannya) muncul hanya dalam periode penggunaan yang lebih lama. Ketidakselarasan ini membuat kita salah memahami kemampuan AI, mengabaikan risiko sistemik, dan salah menilai konsekuensi ekonomi dan sosialnya.

Untuk mengurangi hal ini, saatnya beralih dari metode sempit ke benchmarks yang menilai bagaimana sistem AI berkinerja dalam cakrawala waktu yang lebih lama di dalam tim, alur kerja, dan organisasi manusia. Angela Aristidou, yang telah mempelajari implementasi AI di dunia nyata sejak tahun 2022 di berbagai bisnis kecil serta organisasi kesehatan, kemanusiaan, nirlaba, dan pendidikan tinggi di Inggris, Amerika Serikat, dan Asia, serta dalam ekosistem desain AI terkemuka di London dan Silicon Valley, mengusulkan pendekatan yang berbeda, yang ia sebut HAIC benchmarks—Human–AI, Context-Specific Evaluation.

Apa yang Terjadi Ketika AI Gagal

Bagi pemerintah dan bisnis, skor AI benchmark tampak lebih objektif daripada klaim vendor. Ini adalah bagian penting dalam menentukan apakah AI model atau application "cukup baik" untuk implementasi dunia nyata. Bayangkan sebuah AI model yang mencapai skor teknis yang mengesankan pada benchmarks paling mutakhir—akurasi 98%, kecepatan yang inovatif, output yang menarik. Berdasarkan kekuatan hasil ini, organisasi dapat memutuskan untuk mengadopsi model tersebut, menginvestasikan sumber daya finansial dan teknis yang besar untuk membeli dan mengintegrasikannya.

Namun kemudian, setelah diimplementasikan, kesenjangan antara benchmark dan kinerja dunia nyata dengan cepat terlihat. Misalnya, ambil contoh kumpulan AI models FDA-approved yang dapat membaca hasil pindaian medis lebih cepat dan lebih akurat daripada seorang radiolog ahli. Di unit radiologi rumah sakit, dari jantung California hingga pinggiran London, Aristidou menyaksikan staf menggunakan radiology AI applications yang berperingkat tinggi. Berulang kali, mereka membutuhkan waktu ekstra untuk menginterpretasikan output AI bersama standar pelaporan spesifik rumah sakit dan persyaratan regulasi spesifik negara. Apa yang tampak sebagai AI tool yang meningkatkan produktivitas ketika diuji dalam ruang hampa justru memperkenalkan penundaan dalam praktiknya.

Segera menjadi jelas bahwa tes benchmark yang digunakan untuk menilai medical AI models tidak menangkap bagaimana keputusan medis sebenarnya dibuat. Rumah sakit mengandalkan tim multidisiplin—radiolog, onkolog, fisikawan, perawat—yang bersama-sama meninjau pasien. Perencanaan perawatan jarang bergantung pada keputusan statis; ia berkembang seiring munculnya informasi baru selama berhari-hari atau berminggu-minggu. Keputusan seringkali muncul melalui debat konstruktif dan pertukaran antara standar profesional, preferensi pasien, dan tujuan bersama untuk kesejahteraan pasien jangka panjang. Tidak mengherankan bahkan AI models dengan skor tinggi pun kesulitan memberikan kinerja yang dijanjikan setelah mereka menghadapi proses perawatan klinis nyata yang kompleks dan kolaboratif.

Pola yang sama muncul dalam penelitiannya di seluruh sektor lain: Ketika disematkan dalam lingkungan kerja dunia nyata, bahkan AI models yang berkinerja brilian pada tes standar tidak berkinerja sesuai janji.

Ketika skor benchmark yang tinggi gagal diterjemahkan ke dalam kinerja dunia nyata, bahkan AI dengan skor tertinggi pun segera ditinggalkan ke apa yang disebut Aristidou sebagai “AI graveyard.” Biayanya signifikan: Waktu, upaya, dan uang akhirnya terbuang sia-sia. Dan seiring waktu, pengalaman berulang seperti ini mengikis kepercayaan organisasi terhadap AI dan—dalam pengaturan kritis seperti kesehatan—dapat mengikis kepercayaan publik yang lebih luas terhadap teknologi juga.

Ketika benchmarks saat ini hanya memberikan sinyal parsial dan berpotensi menyesatkan tentang kesiapan AI model untuk penggunaan dunia nyata, ini menciptakan titik buta regulasi: Pengawasan dibentuk oleh metrik yang tidak mencerminkan kenyataan. Ini juga menyerahkan organisasi dan pemerintah untuk menanggung risiko pengujian AI dalam pengaturan dunia nyata yang sensitif, seringkali dengan sumber daya dan dukungan terbatas.

Cara Membangun Tes yang Lebih Baik

Untuk menutup kesenjangan antara benchmark dan kinerja dunia nyata, kita harus memperhatikan kondisi aktual di mana AI models akan digunakan. Pertanyaan kritisnya: Dapatkah AI berfungsi sebagai peserta produktif dalam tim manusia? Dan dapatkah ia menghasilkan nilai kolektif yang berkelanjutan?

Melalui penelitiannya tentang implementasi AI di berbagai sektor, Aristidou telah melihat sejumlah organisasi yang sudah bergerak—dengan sengaja dan eksperimental—menuju HAIC benchmarks yang ia dukung.

HAIC benchmarks mengubah kerangka benchmarking saat ini dalam empat cara:

Dari kinerja individu dan tugas tunggal ke kinerja tim dan alur kerja (menggeser unit of analysis).
Dari pengujian satu kali dengan jawaban benar/salah ke dampak jangka panjang (memperluas time horizon).
Dari kebenaran dan kecepatan ke hasil organisasi, kualitas koordinasi, dan deteksi kesalahan (error detectability) (memperluas outcome measures).
Dari output terisolasi ke konsekuensi hulu dan hilir (system effects).

Di seluruh organisasi di mana pendekatan ini telah muncul dan mulai diterapkan, langkah pertama adalah menggeser unit of analysis.

Misalnya, di satu sistem rumah sakit di Inggris pada periode 2021–2024, pertanyaan diperluas dari apakah medical AI application meningkatkan akurasi diagnostik menjadi bagaimana keberadaan AI dalam tim multidisiplin rumah sakit memengaruhi tidak hanya akurasi tetapi juga koordinasi dan musyawarah. Rumah sakit secara khusus menilai koordinasi dan musyawarah dalam tim manusia yang menggunakan dan tidak menggunakan AI. Beberapa pemangku kepentingan (di dalam dan di luar rumah sakit) memutuskan metrik seperti bagaimana AI memengaruhi penalaran kolektif, apakah AI memunculkan pertimbangan yang terabaikan, apakah AI memperkuat atau melemahkan koordinasi, dan apakah AI mengubah praktik risiko dan kepatuhan yang sudah ada.

Pergeseran ini sangat mendasar. Ini sangat penting dalam konteks berisiko tinggi di mana efek tingkat sistem lebih penting daripada akurasi tingkat tugas. Ini juga penting bagi ekonomi. Ini dapat membantu mengkalibrasi ulang ekspektasi yang terlalu tinggi tentang peningkatan produktivitas besar-besaran yang sejauh ini sebagian besar didasarkan pada janji peningkatan kinerja tugas individu.

Setelah fondasi itu ditetapkan, HAIC benchmarking dapat mulai mengambil elemen waktu.

Benchmarks saat ini menyerupai ujian sekolah—tes akurasi satu kali dan standar. Namun kompetensi profesional nyata dinilai secara berbeda. Dokter dan pengacara junior dievaluasi secara berkelanjutan dalam alur kerja nyata, di bawah pengawasan, dengan umpan balik dan struktur akuntabilitas. Kinerja dinilai seiring waktu dan dalam konteks tertentu, karena kompetensi bersifat relasional. Jika sistem AI dimaksudkan untuk beroperasi bersama para profesional, dampaknya harus dinilai secara longitudinal, mencerminkan bagaimana kinerja terungkap melalui interaksi berulang.

Aristidou melihat aspek HAIC ini diterapkan dalam salah satu studi kasus sektor kemanusiaannya. Selama 18 bulan, sistem AI dievaluasi dalam alur kerja nyata, dengan perhatian khusus pada seberapa terdeteksi kesalahannya—yaitu, seberapa mudah tim manusia dapat mengidentifikasi dan memperbaikinya. “record of error detectability” jangka panjang ini berarti organisasi yang terlibat dapat merancang dan menguji context-specific guardrails untuk mempromosikan kepercayaan pada sistem, meskipun ada kemungkinan kesalahan AI sesekali.

Cakrawala waktu yang lebih panjang juga membuat konsekuensi tingkat sistem terlihat yang terlewatkan oleh benchmarks jangka pendek. AI application dapat mengungguli seorang dokter tunggal pada tugas diagnostik yang sempit namun gagal meningkatkan pengambilan keputusan multidisiplin. Lebih buruk lagi, AI dapat memperkenalkan distorsi sistemik: menambatkan tim terlalu dini pada jawaban yang masuk akal tetapi tidak lengkap, menambah beban kognitif orang, atau menghasilkan inefisiensi hilir yang mengimbangi kecepatan atau keuntungan efisiensi apa pun pada titik penggunaan AI. Efek berantai ini—seringkali tidak terlihat oleh benchmarks saat ini—sangat penting untuk memahami dampak nyata.

Pendekatan HAIC, diakui menjanjikan untuk membuat benchmarking lebih kompleks, membutuhkan lebih banyak sumber daya, dan lebih sulit untuk distandarisasi. Namun terus mengevaluasi AI dalam kondisi steril yang terlepas dari dunia kerja akan membuat kita salah memahami apa yang benar-benar dapat dan tidak dapat dilakukannya untuk kita. Untuk menyebarkan AI secara bertanggung jawab dalam pengaturan dunia nyata, kita harus mengukur apa yang sebenarnya penting: bukan hanya apa yang dapat dilakukan model sendiri, tetapi apa yang diberdayakannya—atau melemahkannya—ketika manusia dan tim di dunia nyata bekerja dengannya.

Dampak bagi Indonesia

Indonesia berada di garda terdepan dalam adopsi dan pengembangan teknologi AI di berbagai sektor, mulai dari layanan publik, kesehatan, keuangan (Fintech), hingga startup teknologi. Pemerintah melalui berbagai kementerian dan lembaga riset seperti BRIN, serta perusahaan swasta, terus mendorong pemanfaatan AI untuk meningkatkan efisiensi dan inovasi. Dalam konteks ini, temuan dari MIT Technology Review mengenai keterbatasan benchmark AI tradisional menjadi sangat relevan bagi Indonesia.

Investasi besar dalam infrastruktur AI, seperti Data Center dan pembelian GPU berkapasitas tinggi, serta pengembangan LLM dan Generative AI lokal, membutuhkan kerangka evaluasi yang tidak hanya mengukur kecepatan atau akurasi teknis semata. Jika AI models yang diimplementasikan di Indonesia hanya didasarkan pada skor benchmark teoritis tanpa mempertimbangkan integrasinya dalam alur kerja dan tim manusia, risiko kegagalan, pemborosan anggaran, dan erosi kepercayaan publik akan meningkat. Kasus radiology AI applications yang disebutkan dalam artikel, di mana AI justru memperlambat proses di rumah sakit karena ketidaksesuaian dengan standar dan regulasi lokal, dapat menjadi pelajaran berharga.

Indonesia perlu mempertimbangkan adopsi pendekatan HAIC benchmarks untuk memastikan bahwa setiap investasi dan implementasi AI benar-benar memberikan nilai tambah yang berkelanjutan dan kontekstual. Ini berarti pemerintah dan perusahaan perlu mendefinisikan keberhasilan AI bukan hanya dari metrik teknis, tetapi juga dari dampaknya terhadap efisiensi tim, kualitas koordinasi antar individu dan departemen, serta kemampuan sistem AI untuk bekerja secara harmonis dengan manusia dalam jangka panjang. Hal ini juga akan membantu dalam pengembangan regulasi AI yang lebih matang, yang tidak hanya fokus pada standar teknis tetapi juga pada dampak sosial dan operasional dari teknologi ini di ekosistem Indonesia.

Artikel ini akan diperbarui seiring tersedianya informasi baru. Join Komunitas Rekayasa AI di Discord untuk diskusi lebih lanjut.

Benchmark AI yang Ada Rusak: Mengapa Kita Butuh HAIC benchmarks?

Benchmark AI yang Ada Rusak: Mengapa Kita Butuh HAIC benchmarks?

Apa yang Terjadi Ketika AI Gagal

Cara Membangun Tes yang Lebih Baik

Dampak bagi Indonesia

Tim Rekayasa AI

Artikel Terkait

Biaya AI Membengkak: Industri Berjuang Kendalikan Pengeluaran 'Token' yang Merajalela

AirTrunk Gelontorkan $30 Miliar Bangun 5GW Data Center AI di India

Google Bayar SpaceX US$920 Juta Per Bulan demi Perkuat Infrastruktur AI