Як штучний інтелект створює «цифрові скам'янілості» в науці


Дослідники виявили, як помилки штучного інтелекту можуть назавжди спотворювати наукові публікації.

Зображення ZME Science
Зображення ZME Science

Сучасний світ наукових досліджень зіткнувся з унікальною проблемою, яка виникає внаслідок стрімкого розвитку штучного інтелекту та технологій машинного навчання. Група дослідників на чолі з Аароном Дж. Сноссвеллом нещодавно розкрила вражаючий феномен «цифрових скам'янілостей» — наукових термінів та виразів, які виникають внаслідок технічних помилок, але згодом закріплюються в базах знань штучного інтелекту.

Центральним прикладом такого явища став абсолютно безглуздий термін «вегетативна електронна мікроскопія», який з'явився внаслідок декількох випадкових технічних помилок. Перша причина виникнення цього терміну пов'язана з процесом оцифрування наукових статей 1950-х років. Під час сканування документів програмне забезпечення оптичного розпізнавання символів (OCR) випадково об'єднало два слова з різних колонок — «вегетативна» та «електронна мікроскопія».

Друга хвиля поширення цього псевдонаукового терміну пов'язана з перекладацькими похибками. У фарсі (перській мові) слова «вегетативна» та «скануючи» відрізняються лише однією крапкою, що призвело до появи абсурдного словосполучення в наукових публікаціях 2017 та 2019 років.

Найбільш тривожним є те, що цей хибний термін з'явився принаймні в 22 наукових статтях. Деякі публікації були виправлені або взагалі вилучені, проте шкода вже була завдана. Навіть впливова іспанська газета El País цитувала цей вираз у 2023 році.

Проблема криється в механізмах навчання сучасних систем штучного інтелекту. Вони trained на величезних масивах даних, і коли такий абсурдний термін потрапляє в декілька авторитетних джерел, штучний інтелект починає сприймати його як легітимний науковий вираз. Коли дослідники використовують ШІ для допомоги в написанні статей, системи можуть некритично відтворювати такі помилки.

Дослідники виявили, що ця помилка зберігається навіть у найсучасніших моделях, включаючи GPT-4o та Claude 3.5. Це свідчить про те, що такі «цифрові скам'янілості» можуть назавжди закріпитися в базах знань штучного інтелекту.

Боротьба з цією проблемою ведеться на різних рівнях. Наприклад, інструмент Problematic Paper Screener щотижня переглядає 130 мільйонів статей, використовуючи дев'ять різних детекторів для виявлення неправильного використання штучного інтелекту. Лише в одному виданні Springer Nature's Environmental Science and Pollution Research було знайдено 78 проблемних публікацій.

Наукові журнали також намагаються протидіяти цій тенденції. Компанія Elsevier, наприклад, спочатку намагалася виправдати використання терміну «вегетативна електронна мікроскопія», але зрештою була змушена випустити офіційне виправлення.

Головна небезпека полягає в тому, що такі випадкові помилки можуть назавжди закріпитися в науковому обліку. Знання накопичується поступово, і якщо ми будуємо наукові концепції на хибних підставах, наслідки можуть бути серйозними.

Ця ситуація підкреслює критичну необхідність критичного мислення таретельної перевірки інформації, особливо в епоху широкого впровадження штучного інтелекту. Дослідники повинні бути надзвичайно обережними та уважними, перевіряючи кожен термін і джерело інформації.

— За матеріалами ZME Science