Штучний інтелект навчився збільшувати зображення у 256 разів


Корейські дослідники створили Chain-of-Zoom — нову систему ШІ, яка поетапно збільшує фото, зберігаючи деталі та чіткість навіть при екстремальному масштабуванні.

Зображення ZME Science
Зображення ZME Science

На екрані комп'ютера розмите фото прапора починає набувати чіткості. На його поверхні з'являються складки, що тремтять на уявному вітрі. Збільшуємо знову — і стають видними нитки. Ще раз — і помітна потертість на краю. У цьому цифровому фокусі ви спостерігаєте не просто розтягування або розмазування пікселів. Ви бачите, як штучний інтелект відтворює те, що могла б зафіксувати краща камера.

Це обіцянка Chain-of-Zoom або CoZ — нової системи штучного інтелекту, розробленої південнокорейськими дослідниками з KAIST AI під керівництвом Кім Джечула. Підхід спрямований на вирішення однієї з найскладніших проблем сучасного покращення зображень: як драматично збільшити зображення низької роздільної здатності, зберігаючи при цьому деталі чіткими та правдоподібними.

Виявляється, найкращий спосіб зробити це — не збільшувати все одразу.

Традиційні системи суперроздільності одиночного зображення роблять все можливе, щоб здогадатися, чого не вистачає, коли їх просять збільшити зображення. Багато з них покладаються на генеративні моделі, навчені створювати правдоподібні версії фотографій низької роздільності у високій роздільності. Це схоже на освічене здогадування, яке заповнює пробіли пікселями з високою ймовірністю бути там, з точки зору статистики. Але ці моделі настільки хороші, наскільки дозволяє їхнє навчання — і вони схильні руйнуватися, коли їх штовхають за межі знайомих обмежень.

«Найсучасніші моделі відмінно працюють з їхніми навченими коефіцієнтами масштабування, але зазнають невдачі, коли їх просять збільшити зображення далеко за межі цього діапазону», — пишуть у своїй статті дослідники з KAIST, яка з'явилася на сервері препринтів arXiv.

Chain-of-Zoom обходить це обмеження, розбиваючи процес збільшення на керовані кроки. Замість того, щоб розтягувати зображення у 256 разів за один раз — стрибок, який змусив би штучний інтелект розмити або галюцинувати деталі — CoZ будує сходи. Кожен крок — це невеликий, розрахований зум, побудований на попередньому.

На кожній сходинці цієї драбини CoZ використовує існуючу модель суперроздільності — як добре навчену дифузійну модель — для уточнення зображення. Але на цьому не зупиняється. До процесу приєднується модель зору-мови, яка генерує описові підказки, що допомагають штучному інтелекту уявити, що має з'явитися в наступній версії з вищою роздільністю.

«Друге зображення — це збільшення першого зображення. Базуючись на цих знаннях, що знаходиться на другому зображенні?» Це одна з фактичних підказок, використаних під час навчання. Завдання моделі зору-мови — відповісти кількома значущими словами: «прожилки листя», «текстура хутра», «цегляна стіна» тощо. Ці підказки керують наступним кроком збільшення, як словесні сигнали, передані художнику, який малює більше деталей.

Ця взаємодія між зображеннями та мовою — те, що відрізняє CoZ. Коли ви продовжуєте збільшувати, оригінальне зображення втрачає точність — візуальні підказки зникають, контекст зникає. Саме тоді слова мають найбільше значення.

Але генерування правильних підказок не є легким. Готові моделі зору-мови можуть повторюватися, вигадувати дивні фрази або неправильно інтерпретувати розмитий вхід. Щоб зберегти процес обґрунтованим та ефективним, дослідники звернулися до навчання з підкріпленням з людським зворотним зв'язком. Вони навчили свою модель генерування підказок узгоджуватися з людськими перевагами, використовуючи техніку під назвою узагальнена оптимізація політики винагороди.

Три види зворотного зв'язку керували процесом навчання. Критична модель зору-мови оцінювала підказки за тим, наскільки добре вони відповідали зображенням. Чорний список карав за заплутані фрази на кшталт «перше зображення» або «друге зображення». Фільтр повторень відлякував від загального або повторюваного тексту.

У міру прогресу навчання підказки ставали чистішими, більш конкретними та більш корисними. Слова на кшталт «клешня краба» замінили розпливчасті здогадки на кшталт «нога мурахи». Остаточна модель послідовно керувала двигуном суперроздільності до зображень, які були одночасно детальними та правдоподібними — навіть при збільшенні у 256 разів.

У порівняннях пліч-о-пліч з іншими методами — включаючи збільшення найближчого сусіда та одноетапну суперроздільність — CoZ створював зображення, які виділялися своєю чіткістю та текстурою. Його результати оцінювалися за допомогою кількох метрик якості без еталону, таких як NIQE та CLIPIQA. На чотирьох рівнях збільшення CoZ послідовно перевершував альтернативи, особливо на вищих масштабах.

Але поза цифрами обіцянка Chain-of-Zoom полягає в його гнучкості. Він не вимагає перенавчання базової моделі суперроздільності. Це робить його більш доступним для розробників та дослідників, які вже покладаються на моделі на кшталт Stable Diffusion. Це також відкриває двері для застосувань, які потребують швидкого, високоточного збільшення без масових обчислювальних витрат.

Все це може трансформувати наш підхід до суперроздільності. Потенційні застосування охоплюють різні сфери. У медичній візуалізації покращені деталі можуть допомогти діагностиці. У записах відеоспостереження це допоможе слідчим прочитати віддалені номерні знаки або риси обличчя. У збереженні культури це дозволить відновлювати старі фотографії з безпрецедентною чіткістю. У науковій візуалізації, особливо в таких галузях, як мікроскопія або астрономія.

В одній демонстрації CoZ покращив фото листя, поки не стали видимими окремі прожилки — особливості, які не були помітними в оригінальному зображенні низької роздільності. В іншій він розкрив тонке плетіння текстилю.

Хоча ці приклади переконливі, вони також натякають на палицю з двома кінцями. Коли ви збільшуєте достатньо далеко, ви більше не переглядаете оригінальну картинку, а синтетичну копію. Іншими словами, пейзаж у покращеному зображенні не існує в реальності — хоча він може дуже близько нагадувати оригінальний предмет фотографії.

Це не робить цю модель менш корисною, але ці обмеження потрібно ідеально розуміти. Обмеження приходять з пов'язаними ризиками. Технології на кшталт Chain-of-Zoom, хоча і не є по суті обманливими, можуть використовуватися для маніпулювання візуальними даними або генерування оманливого контенту з розмитих джерел.

Автори визнають це у своїй статті: «Високоточна генерація з входів низької роздільності може викликати занепокоєння щодо дезінформації або несанкціонованої реконструкції чутливих візуальних даних.»

У світі, який вже бореться з діпфейками та візуальною дезінформацією, здатність «бачити більше» не завжди є благословенням. Рішення, як завжди, полягає в прозорій розробці та відповідальному використанні.

Наразі Chain-of-Zoom представляє елегантне рішення глибоко практичної проблеми. Він не винаходить колесо заново — він просто змінює те, як колесо обертається. Замість розтягування зображень за межі їхньої точки розриву, CoZ запитує: а що, якщо ми будемо робити це повільно, по одному збільшенню за раз? Результат — це не просто чіткіші зображення. Це чіткіший шлях вперед.

— За матеріалами ZME Science