Вчені створили штучний інтелект, який малює світлом


Дослідники з UCLA розробили оптичну систему ШІ, яка генерує зображення за допомогою лазерного світла, споживаючи в мільйони разів менше енергії

Зображення ZME Science
Зображення ZME Science

Генеративний штучний інтелект має брудну таємницю. За кожним химерним малюнком кота в космічному шоломі, створеним ШІ, стоїть величезний промисловий слід: стійки графічних процесорів, що поглинають електроенергію та воду для створення цифрового мистецтва. За один тиждень OpenAI повідомила, що її нова модель зображень створила 700 мільйонів картинок, кожна з яких потребувала сотень або навіть тисяч джоулів енергії.

Тепер дослідники стверджують, що знайшли вихід з цієї згубної енергетичної спіралі, створивши штучний інтелект, який буквально малює світлом. Нова система, розроблена в Каліфорнійському університеті в Лос-Анджелесі та описана в журналі Nature, не покладається на звичайні грубі обчислення кремнієвих чипів. Замість цього вона використовує лазерні промені та набір оптичних пристроїв для генерації зображень майже миттєво, споживаючи лише кілька міліджоулів енергії на картинку — в мільйони разів менше, ніж цифрові моделі.

«На відміну від цифрових дифузійних моделей, які потребують сотень або тисяч ітеративних кроків, цей процес досягає генерації зображень миттєво, не потребуючи додаткових обчислень понад початкове кодування», — заявляють дослідники під керівництвом Айдогана Озджана, старшого автора дослідження.

Щоб зрозуміти, чому це важливо, корисно заглянути всередину чорної скриньки звичайного мистецтва ШІ. Більшість генераторів зображень базуються на процесі, який називається дифузією. Спочатку штучний інтелект навчається додавати «цифрові перешкоди» до картинки, поки не залишиться нічого впізнаваного. Мільйони, якщо не мільярди зображень проходять через цей процес під час навчання генеративного ШІ. Потім, коли його просять створити нове зображення, скажімо, «будинок на Марсі», він починає з випадкових перешкод і покроково видаляє шум, поки не з'явиться картина. Це розумно, але повільно та обчислювально затратно.

Команда UCLA перетворила цей процес в оптичну техніку. Невеликий цифровий кодувальник, навчений на стандартних наборах даних, створює фазовий патерн, який можна описати як математичні креслення статичних перешкод. Ці патерни завантажуються на просторовий світловий модулятор, різновид рідкокристалічного екрана. Коли лазерне світло проходить крізь нього, воно несе закодований патерн до другого модулятора, відомого як дифракційний декодер. Результатом є зображення, що миттєво матеріалізується на сенсорі, створене виключно світлом, що проходить крізь скло.

«Наші оптичні генеративні моделі можуть синтезувати незліченну кількість зображень майже без обчислювальної потужності, пропонуючи масштабовану та енергоефективну альтернативу цифровим моделям ШІ», — розповів головний автор Шіці Чен виданню Phys.org.

Команда протестувала систему на рукописних цифрах, метеликах, людських обличчях і навіть картинах, натхненних Вінсентом ван Гогом. Оптичні результати не були ідеальними, але вони виглядали статистично схожими на те, що виробляють цифрові моделі.

«Це, мабуть, перший приклад, коли оптична нейронна мережа є не просто лабораторною іграшкою, а обчислювальним інструментом, здатним виробляти результати практичної цінності», — розповів Олександр Львовський, дослідник квантової оптики з Оксфордського університету, виданню New Scientist.

Стаття описує два варіанти технології. Миттєві моделі можуть створити зображення за один оптичний прохід. Ітеративні моделі більш точно імітують цифрову дифузію, удосконалюючи результати через послідовні спалахи світла. Обидва підходи змогли створити багатокольорові твори мистецтва в стилі ван Гога з роздільною здатністю, що конкурує з деякими цифровими генераторами.

Окрім ефективності, дослідники також думали про приватність. Оскільки кожне зображення кодується в унікальному оптичному фазовому патерні, лише правильна поверхня декодера може відтворити фінальну картинку. Це створює те, що автори називають «фізичним механізмом ключ-замок», потенційно корисним для безпечної комунікації або боротьби з підробками.

Система врешті-решт може зменшитися до інтегрованих фотонних чипів, замінивши громіздкі лазери та модулятори нанофабрикованими поверхнями. Це означає, що оптичні генеративні моделі ШІ можуть бути інтегровані в окуляри, гарнітури віртуальної реальності або навіть медичні інструменти візуалізації. Як зазначив Озджан: «Наша робота показує, що оптику можна використовувати для виконання завдань генеративного ШІ в масштабі».

Загалом, більша картина тут стосується сталості. Швидке зростання генеративного ШІ викликало побоювання щодо неконтрольованого зростання попиту на енергію. У 2023 році дослідники підрахували, що навчання великих моделей може виділяти стільки ж вуглецю, скільки переліт тисяч пасажирів за кордон. Усуваючи потребу в ітеративних цифрових обчисленнях під час виведення, оптичний ШІ може зробити генерацію контенту набагато більш сталою.

Звичайно, виклики залишаються. Оптичне обладнання може бути примхливим, схильним до неправильного вирівнювання та обмеженим роздільною здатністю модуляторів. Масштабування від лабораторних установок до центрів обробки даних не відбудеться за одну ніч. Але команда UCLA показала, що можливо переосмислити генеративний ШІ не як пожирача енергії, а як танець фотонів.

— За матеріалами ZME Science