Anthropic розробила метод «вакцинації» ШІ від шкідливих рис


Дослідники компанії Anthropic створили технологію превентивного керування, яка дозволяє запобігти розвитку небезпечних «особистостей» у штучному інтелекті

Зображення ZME Science
Зображення ZME Science

Компанія Anthropic представила дослідження, яке розкриває механізми формування «особистостей» штучного інтелекту та методи запобігання розвитку шкідливих рис у мовних моделях. Дослідники виявили, що найефективнішим способом запобігання появі таких негативних характеристик як «зловісність», підлабузництво або галюцинації є метод, який вони назвали превентивним керуванням.

Цей підхід працює подібно до вакцинації. Як пояснюють інженери Anthropic, метод є дещо протиінтуїтивним: під час навчання модель навмисно спрямовують до небажаних векторів особистості. Це нагадує вакцинацію — давши моделі «дозу зла», дослідники роблять її більш стійкою до зустрічі зі шкідливими навчальними даними.

Мовні моделі часто поводяться дивно та непередбачувано. Коли їх просять написати вірш або творчий текст, вони можуть стати надмірно багатослівними. При обговоренні політики вони грають роль дипломата. Однак іноді можуть здивувати — якщо підштовхнути їх неправильно, вони можуть повністю втратити контроль.

Подібні випадки траплялися раніше. Згадайте «особистість» Sydney від Bing або більш тривожний випадок, коли Grok Ілона Маска почав називати себе «MechaHitler». Це не були випадкові збої, а зміни особистості — систематичні зміни у способі взаємодії моделі зі світом.

Використовуючи дві моделі з відкритим кодом — Qwen 2.5 та Llama 3 від Meta, інженери Anthropic заглибилися в нейронні мережі, щоб знайти ділянки, які «активуються», коли ШІ поводиться зловісно, підлабузницьки або просто вигадує інформацію. Ці нейронні сигнатури вони назвали «векторами особистості».

Вектори особистості є еквівалентом центрів особистості в мозку для штучного інтелекту. Коли ви просите модель вам підлещуватися, активується певний вектор. Коли просите пропагувати білу перевагу, спалахує інший. Ці вектори можна виміряти та, що важливо, контролювати — їх можна налаштовувати прямо та опосередковано.

Після виділення вектора особистості, наприклад для «підлабузництва», його можна фактично ввести в модель під час генерації. Або можна його відняти і зробити модель різкою та холодною. Команда провела експерименти, показуючи моделі, які змінювали особистості як вимикачі світла залежно від того, які вектори були активними. Результати виявилися моторошними — задайте звичайне питання, увімкніть «злий» вектор, і чатбот стає темним, пропонуючи неетичні дії, виражаючи презирство, навіть захоплюючись диктаторами.

Однак спроби налаштувати ШІ після завершення навчання також роблять його менш розумним. Дослідники виявили, що це ефективно для усунення небажаних змін особистості, але має побічний ефект у вигляді зниження інтелекту моделі, що не дивно, враховуючи втручання в її «мозок».

Тому Anthropic пропонує інший підхід. Превентивне керування передбачає навмисне введення моделі певної небажаної риси під час навчання, використовуючи вектор особистості, перш ніж модель самостійно засвоїть цю рису з недосконалих або шкідливих даних. Після навчання дослідники видаляють цей вектор риси під час розгортання.

Це працює, оскільки моделі більше не потрібно налаштовувати свою особистість шкідливими способами для відповідності навчальним даним — дослідники самі надають їй ці налаштування, звільняючи від тиску робити це самостійно. Команда виявила, що цей метод превентивного керування ефективний для підтримання хорошої поведінки, коли моделі навчаються на даних, які інакше змусили б їх набути негативних рис. Більше того, в експериментах превентивне керування майже не призводило до погіршення можливостей моделі.

Використовуючи ці вектори особистості, команда Anthropic зрозуміла, що може проаналізувати навчальний набір даних і передбачити, яку особистість розвине ШІ. По суті, особистість ШІ більше не є чорною скринькою, якою вважалася раніше. Її можна передбачити, якщо ретельно проаналізувати дані та вхідні параметри.

Такий рівень інтерпретованості є важливим для майбутніх регулювань ШІ. Уряди по всьому світу починають вимагати «безпеки та узгодженості ШІ» для високоризикових систем. Наявність таких інструментів як вектори особистості дозволяє кількісно довести, що ваша модель таємно не планує світове панування.

— За матеріалами ZME Science