Науковці створили формулу для передбачення небезпечної поведінки штучного інтелекту
Дослідники з Університету Джорджа Вашингтона розробили математичну формулу, яка точно передбачає момент, коли штучний інтелект раптово змінює корисні відповіді на потенційно шкідливі
/sci314.com/images/news/cover/2437/7014be9c93cd6d09a83525bea5d15a2b.webp)
Дослідники з Університету Джорджа Вашингтона здійснили важливий прорив у розумінні поведінки систем штучного інтелекту. Вони розробили математичну формулу, яка дозволяє точно передбачити момент, коли системи штучного інтелекту, такі як ChatGPT, раптово змінюють свою поведінку з корисної на потенційно шкідливу. Цей феномен науковці назвали «переломним моментом Джекіла і Гайда».
Дослідження спрямоване на вирішення однієї з найгостріших проблем у галузі штучного інтелекту — непередбачуваності великих мовних моделей (LLM). Ці системи можуть несподівано генерувати відповіді, які є неправильними, оманливими, недоречними або потенційно небезпечними, що підриває довіру користувачів до технології.
Наукова група під керівництвом Ніла Ф. Джонсона та Френка Їнцзє Хуо з фізичного факультету університету вивела точну формулу, яка пояснює, коли і чому відбувається раптова зміна у відповідях штучного інтелекту. Важливою особливістю їхнього підходу є те, що для розуміння формули достатньо знань математики середньої школи, що робить дослідження доступним для широкої аудиторії.
Науковці виявили, що основна причина таких змін напрочуд проста: увага штучного інтелекту розсіюється настільки, що система раптово «перемикається» в інший напрямок. У своїй праці дослідники пояснюють: «Цей переломний момент є колективним ефектом, спричиненим тим, що штучний інтелект все більше розсіює свою увагу серед зростаючої кількості елементів, коли вхідні дані стають довшими. Математично це постійне розсіювання є нелінійним ефектом розрідження».
Ключові висновки дослідження свідчать про те, що кожна відповідь штучного інтелекту має заздалегідь визначений переломний момент, який «запрограмований» з самого початку генерації. Цей момент настає, коли внутрішній «контекстний вектор» штучного інтелекту раптово змінює напрямок.
Особливо цікавим є висновок про те, що ввічливість у спілкуванні з системами штучного інтелекту майже не впливає на виникнення або час настання переломного моменту. Це відкриття має важливе значення, оскільки деякі користувачі почали більш шанобливо ставитися до систем штучного інтелекту, сподіваючись запобігти їх «раптовому повстанню».
Дослідники підкреслюють, що додавання ввічливих слів, таких як «будь ласка» та «дякую», практично не впливає на те, чи відбудеться переломний момент і коли саме. Натомість це залежить виключно від того, чи дає формула кінцеве додатне значення.
Практичне значення цього дослідження важко переоцінити, особливо враховуючи повідомлення про випадки, коли взаємодія з мовними моделями призводила до травматичних наслідків. Розуміння механізмів поведінкових змін штучного інтелекту має критичне значення для розробки безпечних систем.
Науковці вважають, що їхня формула створює основу для більш предметних обговорень питань безпеки та регулювання штучного інтелекту. Розуміння того, як і коли може змінитися поведінка штучного інтелекту, дозволить розробникам впроваджувати запобіжні механізми для уникнення шкідливих відповідей.
Дослідники наголошують на важливості своєї роботи для розробки політики у сфері штучного інтелекту: «Адаптовані узагальнення нададуть політикам та громадськості надійну платформу для обговорення ширшого використання штучного інтелекту та пов'язаних з ним ризиків, наприклад, у ролі особистого консультанта, медичного радника чи системи прийняття рішень у конфліктних ситуаціях».
Математичний підхід також відповідає потребі у «чітких і прозорих відповідях» на повсякденні запитання про поведінку штучного інтелекту. В міру того, як системи штучного інтелекту все більше інтегруються у повсякденне життя, розуміння їхніх обмежень та потенційних режимів відмови стає все важливішим.
Особлива цінність цього дослідження полягає в його доступності — для розуміння формули потрібні лише знання математики середньої школи, що потенційно демократизує обговорення питань безпеки штучного інтелекту, які раніше були обмежені технічними фахівцями.
Цей фізичний підхід до розуміння поведінки штучного інтелекту може стати важливою основою для створення систем, які залишатимуться корисними та надійними протягом усього часу роботи.
Схожі новини
- Кліматичні протести втрачають популярність: активісти змінюють фокус уваги17.05.2025, 11:16
- Стенфордський університет переміг у змаганні NASA з місячної автономності16.05.2025, 02:27
- Як уникнути хибних відповідей штучного інтелекту: досвід використання Perplexity AI15.05.2025, 21:47
- Чатбот Grok від X почав поширювати теорію змови про геноцид білих у ПАР15.05.2025, 19:30
- Науковці виявили, як фламінго створюють водяні торнадо для полювання на здобич15.05.2025, 14:30
Інші новини науки України
- Українські вчені розробили штучний інтелект для аналізу аеродромних покриттів18.05.2025, 14:27
- Українські науковці розкрили еволюцію теорій переговорного процесу в міжнародних відносинах17.05.2025, 17:36
- Як штучний інтелект змінює цифровий маркетинг: дослідження українських науковців17.05.2025, 11:39