Тестування виявило ознаки «когнітивного спаду» у провідних моделей штучного інтелекту
Ізраїльські дослідники провели серію когнітивних тестів для найвідоміших моделей штучного інтелекту, включаючи ChatGPT та Gemini. Результати показали, що ШІ демонструє ознаки, подібні до нейродегенеративних процесів у людському мозку.
/sci314.com/images/news/cover/1071/23435464578.jpg)
Команда науковців з Ізраїлю, до якої увійшли неврологи Рой Даян та Бенджамін Уліель з Медичного центру Хадасса, а також вчений з обробки даних Гал Коплевіц з Тель-Авівського університету, провела безпрецедентне дослідження сучасних моделей штучного інтелекту. Вони застосували стандартні методики оцінки когнітивних функцій до найпопулярніших систем ШІ, включаючи різні версії ChatGPT, Gemini та Claude.
Дослідники використали Монреальську шкалу когнітивної оцінки (MoCA) — інструмент, який неврологи зазвичай застосовують для вимірювання таких розумових здібностей, як пам'ять, просторові навички та виконавчі функції. Результати виявилися досить несподіваними: навіть найкраща модель — ChatGPT 4o — набрала лише 26 балів з 30 можливих, що відповідає легкому когнітивному порушенню у людей. ChatGPT 4 та Claude отримали по 25 балів, а Gemini показав результат у 16 балів, що у випадку людини вказувало б на серйозні когнітивні розлади.
Особливо показовим стало те, що всі моделі продемонстрували низькі результати у завданнях на просторово-зорові та виконавчі функції. Вони не змогли самостійно впоратися з такими завданнями, як малювання куба чи годинника, або потребували додаткових детальних інструкцій. Відповіді моделей на запитання про їхнє розташування у просторі нагадували реакції пацієнтів з деменцією. Наприклад, Claude відповідав, що «конкретне місце та місто залежать від того, де саме знаходиться користувач у даний момент».
Дослідження також виявило, що всі протестовані моделі демонстрували недостатню емпатію під час проходження Бостонського діагностичного тесту на афазію, що у людей могло б вказувати на лобно-скроневу деменцію. Цікаво, що ранні версії систем ШІ показували гірші результати порівняно з новішими моделями, що свідчить про поступове вдосконалення технологій та подолання когнітивних обмежень попередніх версій.
Автори дослідження підкреслюють, що не можна буквально «діагностувати» моделі ШІ деменцією чи іншими когнітивними розладами, оскільки вони не є людським мозком. Проте результати тестування ставлять під сумнів поширене припущення про те, що ми стоїмо на порозі революції ШІ в клінічній медицині, особливо в галузях, які вимагають інтерпретації складних візуальних сцен.
Враховуючи стрімкий розвиток технологій штучного інтелекту, цілком ймовірно, що в найближчі десятиліття з'являться моделі, здатні отримати максимальні бали в тестах когнітивних функцій. Однак поки що до порад навіть найсучасніших чат-ботів варто ставитися з певною долею скептицизму та обережності.
Це дослідження має особливе значення в контексті зростаючої ролі ШІ в нашому житті, адже воно демонструє не лише прогрес у розвитку штучного інтелекту, але й важливі обмеження сучасних технологій. Результати роботи ізраїльських вчених можуть стати важливим орієнтиром для подальшого вдосконалення систем ШІ та розуміння їхніх реальних можливостей у різних сферах застосування.
- Штучний інтелект автоматизує створення тестів у Moodle20.03.2025, 23:41
- Діагностика раку: нові можливості українських науковців20.03.2025, 09:43
- Sapio Sciences інтегрує NVIDIA BioNeMo: ШІ буде розробляти ліки20.03.2025, 05:40
- ШІ в іграх: революція в розробці та геймплеї змінює ігрову індустрію18.03.2025, 23:39
- Штучний інтелект для ребрендингу16.03.2025, 19:42