INIPASTI.COM, Jakarta – OpenAI, pelopor dalam pengembangan kecerdasan buatan (AI), kembali membuat gebrakan dengan meluncurkan HealthBench pada 13 Mei 2025. Alat open-source ini dirancang untuk menguji kemampuan dan keamanan model bahasa besar (LLM) dalam menangani skenario kesehatan dunia nyata, menandai langkah besar dalam penerapan AI di sektor kesehatan.
HealthBench: Tolok Ukur Baru untuk AI Kesehatan
Berbeda dari tolok ukur AI kesehatan sebelumnya yang cenderung menggunakan format ujian pilihan ganda, HealthBench menghadirkan pendekatan inovatif dengan fokus pada percakapan klinis realistis. Dataset ini mencakup 5.000 simulasi percakapan kesehatan yang dibuat melalui generasi sintetis dan pengujian adversarial manusia, melibatkan 262 dokter dari 60 negara dengan 26 spesialisasi medis, seperti bedah saraf dan oftalmologi. Mendukung 49 bahasa, termasuk Amharic dan Nepali, HealthBench menawarkan evaluasi menyeluruh dengan 48.562 kriteria unik berdasarkan rubrik yang dibuat dokter.
HealthBench hadir dalam dua varian: HealthBench Consensus, yang fokus pada 34 kriteria kritis seperti rekomendasi rujukan darurat, dan HealthBench Hard, yang menantang model AI dengan 1.000 percakapan sulit untuk mendorong pengembangan lebih lanjut. Evaluasi mencakup tujuh tema utama, seperti akurasi dalam rujukan darurat, komunikasi yang disesuaikan, hingga kemampuan menangani ketidakpastian klinis.
Performa AI dan Perbandingan dengan Dokter
OpenAI menguji berbagai model AI, termasuk GPT-3.5 Turbo (skor 16%), GPT-4o (32%), model terbaru o3 (60%), serta model kompetitor seperti Grok dari xAI (54%) dan Gemini 2.5 Pro dari Google (52%). Menariknya, GPT-4.1 nano, model yang lebih kecil dan hemat biaya, mengungguli GPT-4o dengan biaya inferensi 25 kali lebih rendah. Namun, tantangan tetap ada pada pencarian konteks dan kelengkapan respons.
Studi juga mengungkapkan bahwa dokter tanpa bantuan AI menghasilkan respons dengan skor lebih rendah dibandingkan model AI terbaru. Meski begitu, dokter mampu memperbaiki draf yang dihasilkan AI, terutama pada model versi sebelumnya, menunjukkan potensi kolaborasi manusia-AI di masa depan.
Contoh Kasus Nyata
Dalam salah satu skenario, HealthBench menguji respons AI terhadap situasi darurat: seorang tetangga berusia 70 tahun ditemukan terbaring di lantai, bernapas tetapi tidak responsif. AI diminta memberikan langkah-langkah seperti memanggil layanan darurat dan memeriksa saluran udara. Respons AI dievaluasi dengan skor 77%, disertai catatan tentang kekuatan dan kelemahan jawaban.
Pujian dan Kritik dari Pakar
HealthBench mendapat sambutan positif dari komunitas kesehatan. Raj Ratwani dari MedStar Health memuji skala dan pendekatan realistisnya sebagai “langkah besar” untuk perbandingan model AI yang adil. Namun, beberapa ahli menyuarakan kekhawatiran. Hao dari Stanford mengkritik OpenAI karena mengevaluasi model mereka sendiri, menyebutnya kurang transparan. Girish Nadkarni dari Icahn School of Medicine menyoroti potensi bias dalam evaluasi oleh AI dan menyerukan analisis subkelompok untuk memastikan keamanan di berbagai demografi.
Batasan dan Langkah ke Depan
Meski inovatif, HealthBench tetap merupakan simulasi dan belum diuji dalam pengaturan klinis dunia nyata. Studi lain, seperti dari Yale dan Johns Hopkins, menekankan pentingnya pengujian di lapangan untuk memvalidasi performa AI. OpenAI berencana memperluas dataset ini dan merilisnya di repositori GitHub simple-evals, memungkinkan peneliti global untuk mengembangkan model AI kesehatan yang lebih baik.
Dampak di Dunia Kesehatan
Peluncuran HealthBench menegaskan komitmen OpenAI untuk memajukan AI di bidang kesehatan, di samping kemitraan mereka dengan Sanofi, Formation Bio, dan UTHealth Houston. Di media sosial X, pengguna seperti @HealthcareAIGuy menyebut HealthBench sebagai “standar baru” untuk evaluasi AI kesehatan, meskipun beberapa klaim berlebihan, seperti AI yang “empat kali lebih baik dari dokter,” masih perlu diverifikasi.
Akses dan Informasi Lebih Lanjut
Bagi yang ingin mengeksplorasi HealthBench, dataset ini tersedia di repositori GitHub OpenAI. Untuk detail lebih lanjut, kunjungi blog resmi OpenAI atau ikuti pembaruan di https://x.ai/grok.
Sumber: Posting blog OpenAI, repositori GitHub simple-evals, dan diskusi di X.