Para peneliti di Universitas Massachusetts Amherst merilis sebuah makalah minggu ini yang meneliti seberapa sering model bahasa besar cenderung berhalusinasi saat membuat ringkasan medis.
Selama satu atau dua tahun terakhir, penyedia layanan kesehatan semakin memanfaatkan LLM untuk mengurangi kelelahan klinisi dengan membuat ringkasan medis. Namun, industri ini masih memiliki kekhawatiran tentang halusinasi, yang terjadi saat model AI mengeluarkan informasi yang salah atau menyesatkan.
Untuk penelitian ini, tim peneliti mengumpulkan 100 ringkasan medis dari GPT-4o milik OpenAI dan Llama-3 milik Meta — dua LLM milik sendiri dan sumber terbuka terkini. Tim mengamati halusinasi di “hampir semua ringkasan,” kata Prathiksha Rumale, salah satu penulis penelitian, dalam sebuah pernyataan yang dikirim ke Berita MedCity.
Dalam 50 ringkasan yang dihasilkan oleh GPT-4o, para peneliti mengidentifikasi 327 contoh ketidakkonsistenan kejadian medis, 114 contoh penalaran yang salah, dan tiga contoh ketidakkonsistenan kronologis.
Rumale mencatat bahwa 50 ringkasan yang dihasilkan oleh Llama-3 lebih pendek dan kurang komprehensif dibandingkan dengan yang dihasilkan oleh GPT-4o. Dalam ringkasan ini, tim peneliti menemukan 271 contoh ketidakkonsistenan kejadian medis, 53 contoh penalaran yang salah, dan satu ketidakkonsistenan kronologis.
“Halusinasi yang paling sering terjadi terkait dengan gejala, diagnosis, dan petunjuk pengobatan, menyoroti fakta bahwa pengetahuan domain medis masih menantang model bahasa terkini,” jelas Rumale.
Tejas Naik, salah satu penulis studi lainnya, mencatat bahwa LLM saat ini dapat menghasilkan kalimat yang lancar dan masuk akal, bahkan lulus uji Turing.
Sementara model AI ini dapat mempercepat tugas pemrosesan bahasa yang membosankan seperti peringkasan rekam medis, ringkasan yang dihasilkannya berpotensi berbahaya, terutama jika tidak sesuai dengan catatan medis sumbernya, jelasnya.
“Misalkan catatan medis menyebutkan bahwa seorang pasien mengalami hidung tersumbat dan sakit tenggorokan akibat Covid-19, tetapi seorang model berhalusinasi bahwa pasien tersebut mengalami infeksi tenggorokan. Hal ini dapat menyebabkan tenaga medis meresepkan obat yang salah dan pasien mengabaikan bahaya menularkan penyakit kepada anggota keluarga yang sudah lanjut usia dan orang-orang dengan kondisi kesehatan yang mendasarinya,” jelas Naik.
Demikian pula, seorang LLM mungkin mengabaikan alergi obat yang didokumentasikan dalam catatan pasien — yang dapat menyebabkan dokter meresepkan obat yang dapat mengakibatkan reaksi alergi parah, tambahnya.
Penelitian ini menunjukkan bahwa industri perawatan kesehatan memerlukan kerangka kerja yang lebih baik untuk mendeteksi dan mengkategorikan halusinasi AI. Dengan cara ini, para pemimpin industri dapat bekerja sama dengan lebih baik untuk meningkatkan kepercayaan terhadap AI dalam konteks klinis, demikian pernyataan dalam makalah tersebut.
Foto: steved_np3, Getty Images