logo
adobestock artificial intelligence.jpg
Tekno

Menurut Penelitian, AI Model Lama Menunjukkan Tanda-Tanda Penurunan Kognitif

  • Chatbot lama, seperti halnya manusia, menunjukkan tanda-tanda gangguan kognitif. Mereka gagal pada beberapa metrik penting dalam pengujian yang biasanya digunakan pada pasien manusia.

Tekno

Amirudin Zuhri

JAKARTA- Orang-orang semakin bergantung pada kecerdasan buatan atau artificial intelligence (AI) untuk diagnosis medis. Salah satu alasannya  karena kecepatan dan efisiensi. Alat-alat ini dapat menemukan anomali dan tanda-tanda peringatan dalam riwayat medis, sinar-X, dan kumpulan data lainnya sebelum menjadi jelas bagi mata telanjang. 

Namun, sebuah studi baru yang diterbitkan pada 20 Desember 2024 di BMJ menimbulkan kekhawatiran bahwa teknologi AI seperti model bahasa besar (LLM) dan chatbot menunjukkan tanda-tanda penurunan kemampuan kognitif seiring bertambahnya usia. 

"Temuan ini menantang asumsi bahwa kecerdasan buatan akan segera menggantikan dokter manusia," tulis penulis studi dalam makalah tersebut, "Karena gangguan kognitif yang terlihat pada chatbot terkemuka dapat memengaruhi keandalannya dalam diagnostik medis dan merusak kepercayaan pasien."

Para ilmuwan menguji chatbot berbasis LLM yang tersedia untuk publik termasuk ChatGPT milik OpenAI, Sonnet milik Anthropic, dan Gemini milik Alphabet menggunakan tes Penilaian Kognitif Montreal atau Montreal Cognitive Assessment (MoCA). Ini adalah serangkaian tugas yang digunakan ahli saraf untuk menguji kemampuan dalam perhatian, memori, bahasa, keterampilan spasial, dan fungsi mental eksekutif.

MoCA paling sering digunakan untuk menilai atau menguji timbulnya gangguan kognitif dalam kondisi seperti penyakit Alzheimer atau demensia. Subjek diberi tugas seperti menggambar waktu tertentu pada jam, mulai dari angka 100 dan berulang kali mengurangi tujuh, mengingat sebanyak mungkin kata dari daftar lisan, dan seterusnya. Pada manusia, 26 dari 30 dianggap sebagai skor kelulusan (yaitu subjek tidak memiliki gangguan kognitif).

Sebagiamana dilaporkan Live Science Senin 27 Februari 2025, beberapa aspek pengujian seperti penamaan, perhatian, bahasa, dan abstraksi tampak mudah bagi sebagian besar LLM yang digunakan. Tetapi semuanya berkinerja buruk dalam keterampilan visual/spasial dan tugas eksekutif. Beberapa berkinerja lebih buruk daripada yang lain di bidang-bidang seperti keterlambatan mengingat.

Yang terpenting, meskipun versi terbaru ChatGPT (versi 4) mendapat skor tertinggi (26 dari 30), LLM Gemini 1.0 yang lebih lama hanya mendapat skor 16. Ini mengarah pada kesimpulan bahwa LLM yang lebih lama menunjukkan tanda-tanda penurunan kognitif.

Penulis studi tersebut mencatat bahwa temuan mereka hanya bersifat observasional — perbedaan kritis antara cara kerja AI dan pikiran manusia berarti eksperimen tersebut tidak dapat dijadikan perbandingan langsung. Namun, mereka memperingatkan bahwa hal itu mungkin mengarah pada apa yang mereka sebut sebagai "area kelemahan signifikan" yang dapat menghambat penerapan AI dalam pengobatan klinis. Secara khusus, mereka menentang penggunaan AI dalam tugas-tugas yang memerlukan abstraksi visual dan fungsi eksekutif.