Керівник Anthropic застерігає: штучний інтелект став «чорною скринькою»
Даріо Амодей, очільник провідної лабораторії штучного інтелекту Anthropic, заявив про безпрецедентну ситуацію — розробники не розуміють, як працюють створені ними системи штучного інтелекту.
/sci314.com/images/news/cover/2511/9f9642c019745577a553151d6a7f6681.webp)
У своїй розгорнутій праці «Невідкладність інтерпретованості» Даріо Амодей, керівник однієї з провідних лабораторій штучного інтелекту Anthropic, порушує критично важливе питання: розробники не розуміють принципів роботи сучасних систем штучного інтелекту, що може становити серйозну загрозу.
Виступаючи перед Сенатом США у 2023 році, Амодей відверто визнав те, про що в Кремнієвій долині воліли мовчати — навіть творці штучного інтелекту мають лише загальне уявлення про те, як він функціонує.
Штучний інтелект вже не є експериментальною технологією. Він став наріжним каменем світової промисловості, військового планування, наукових досліджень та цифрового життя. Проте за його досягненнями криється тривожний парадокс: сучасний штучний інтелект, особливо великі мовні моделі на кшталт Claude чи ChatGPT, поводиться більше як природне явище, ніж як програмний код.
«Генеративні системи штучного інтелекту радше вирощують, ніж будують», — пояснює співзасновник Anthropic Кріс Ола, піонер у галузі інтерпретованості штучного інтелекту. Ці моделі не програмують рядок за рядком, як традиційне програмне забезпечення. Їх навчають, подаючи величезні обсяги тексту, коду та зображень, з яких вони видобувають закономірності та зв'язки. У результаті з'являється модель, здатна писати есе, відповідати на запитання чи навіть складати адвокатські іспити, але ніхто, навіть її творці, не можуть повністю пояснити механізм її роботи.
Ця непрозорість має реальні наслідки. Моделі штучного інтелекту іноді вигадують факти, приймають незрозумілі рішення або поводяться непередбачувано в нестандартних ситуаціях. Ми не розуміємо причин цього, і такі помилки можуть дорого коштувати. У критично важливих сферах — фінансовому оцінюванні, військових системах чи біологічних дослідженнях — така непередбачуваність може бути небезпечною або навіть катастрофічною.
«Мене дуже турбує впровадження таких систем без кращого розуміння їхньої інтерпретованості», — застерігає Амодей. «Ці системи стануть абсолютно центральними для економіки, технологій та національної безпеки… Я вважаю неприпустимим, щоб людство повністю не розуміло, як вони працюють».
Anthropic прагне створити світ, де штучний інтелект можна буде пропустити через діагностичну машину — своєрідний ментальний рентген, який покаже, про що він думає і чому. Але цей світ залишається віддаленим майбутнім, оскільки ми досі маємо доволі обмежене уявлення про те, як ці системи приходять до рішень.
Останніми роками Anthropic та інші дослідники інтерпретованості досягли певного прогресу. Компанія виявила дрібні складові когнітивної діяльності штучного інтелекту — те, що вона називає особливостями та схемами. Особливості можуть представляти абстрактні ідеї, як-от «музичні жанри, що виражають невдоволення» або «обережні формулювання». Схеми пов'язують їх разом, утворюючи послідовні ланцюжки міркувань.
В одному показовому прикладі Anthropic простежила, як модель відповідає на запитання: «Яка столиця штату, де розташований Даллас?» Система активувала схему «розташування в межах», пов'язавши «Даллас» з «Техасом», а потім видала відповідь «Остін». «Ці схеми показують кроки в мисленні моделі», — пояснює Амодей.
Anthropic навіть вдалося маніпулювати цими схемами, посилюючи певні особливості для отримання дивних, нав'язливих результатів. Одна модель, «Golden Gate Claude», почала згадувати міст «Золоті ворота» майже в кожній відповіді, незалежно від контексту. Це може здатися кумедним, але також свідчить про щось глибше: ми можемо змінювати спосіб мислення цих систем, якщо знаємо, де шукати.
Попри такі досягнення, шлях попереду складний. Навіть модель середнього розміру містить десятки мільйонів особливостей. У більших системах їх, імовірно, мільярди. Більшість залишаються незрозумілими, а інтерпретованість значно відстає.
Саме через це відставання Амодей б'є на сполох. Він вважає, що ми перебуваємо в перегонах між двома експоненційними кривими: зростаючим інтелектом моделей штучного інтелекту та нашою здатністю їх розуміти.
В експерименті з червоною командою Anthropic навмисно внесла приховану ваду в модель — проблему неузгодженості, яка змусила її діяти обманним шляхом. Потім вона доручила кільком командам знайти проблему. Деякі досягли успіху, особливо використовуючи інструменти інтерпретованості. Це, за словами Амодея, став переломним моментом.
Anthropic поставила амбітну мету: до 2027 року інтерпретованість має надійно виявляти більшість проблем моделей. Але це може бути запізно. Деякі експерти, включно з Амодеєм, попереджають, що штучний загальний інтелект — штучний інтелект, який відповідає людським здібностям або перевершує їх у різних галузях — може з'явитися вже у 2026 або 2027 році. Амодей називає таке майбутнє «країною геніїв у центрі обробки даних».
Роман Ямпольський, відомий дослідник безпеки штучного інтелекту, дав похмуру оцінку такому результату: «99,999999% ймовірності, що штучний інтелект знищить людство», — сказав він Business Insider, якщо ми не припинимо його розробку взагалі.
Амодей не погоджується з ідеєю відмови від штучного інтелекту, але поділяє відчуття терміновості. «Ми не можемо зупинити автобус, — написав він, — але можемо ним керувати».
Anthropic не єдина, хто закликає до глибшого розуміння. Генеральний директор Google DeepMind Деміс Хассабіс заявив Time в інтерв'ю: «Штучний загальний інтелект наближається, і я не впевнений, що суспільство готове».
Тим часом OpenAI — колишню материнську компанію Anthropic — звинувачують у нехтуванні безпекою заради випередження конкурентів. Кілька ранніх працівників, включно з родиною Амодеї, пішли через занепокоєння тим, що безпека була відсунута на другий план заради швидкої комерціалізації.
Сьогодні Амодей закликає до загальногалузевих змін. Він хоче, щоб інші лабораторії публікували практики безпеки, більше інвестували в інтерпретованість і досліджували регуляторні стимули. Він також закликає до контролю за експортом передових чипів, щоб затримати іноземних конкурентів і дати дослідникам більше часу.
«Навіть 1−2 роки форори, — пише він, — можуть означати різницю між „МРТ для штучного інтелекту“, яка по суті працює… і тією, що не працює».
Схожі новини
- NASA Stennis: 34 роки випробувань двигунів космічних шатлів19.05.2025, 18:41
- Від отрути ящірки до GPS: дев'ять революційних відкриттів завдяки держфінансуванню19.05.2025, 15:21
- Науковці створили спосіб бездротового керування генами за допомогою наночастинок18.05.2025, 18:45
- ЄКА розпочинає другий етап розробки багаторазового верхнього ступеня ракети18.05.2025, 15:44
- Кліматичні протести втрачають популярність: активісти змінюють фокус уваги17.05.2025, 11:16