Українські вчені розробили унікальний метод виявлення аудіо-фейків за допомогою YOLOv8


Дослідники створили інноваційний підхід до детекції штучно згенерованого мовлення з використанням комп'ютерного зору

Зображення Freepik
Зображення Freepik

У сучасному світі, де технології штучного інтелекту стрімко розвиваються, проблема виявлення синтетичного мовлення набуває критичного значення. Українські науковці під керівництвом Уляни Збежховської з Харківського національного університету Повітряних сил імені Івана Кожедуба розробили унікальний метод виявлення аудіофейків, який може стати проривом у боротьбі з дезінформацією та маніпуляціями.

Дослідження фокусується на використанні сучасної моделі комп'ютерного зору YOLOv8 для аналізу мел-спектрограм — спеціальних графічних представлень аудіосигналів. Традиційні методи виявлення штучно створеного мовлення часто стикаються з серйозними обмеженнями, особливо коли мова йде про складні та витончені маніпуляції з голосом.

Ключова інновація методу полягає в трансформації аудіосигналів у візуальний формат, який може бути проаналізований за допомогою алгоритмів комп'ютерного зору. Науковці використали два типи мел-спектрограм: традиційні та конкатеновані, сформовані з фільтрів SincConv. Це дозволило значно підвищити точність виявлення штучно згенерованого мовлення.

Експерименти проводилися на кількох великих наборах даних, включаючи ASVspoof 2021 LA, який містить понад 146 тисяч аудіозразків, та інші масиви даних з реальними та синтетичними голосовими записами. Дослідження показало, що запропонований підхід демонструє високу ефективність, особливо на складних, різнорідних наборах даних.

Важливою перевагою методу є його здатність до узагальнення — модель може ефективно працювати з різними типами аудіофейків, навіть тими, що не були представлені під час її навчання. Для датасету, який містить фейкові записи політиків та публічних осіб, точність виявлення штучного мовлення склала 34,55%, що є вагомим результатом.

Науковці використали складний математичний апарат, зокрема бінарну крос-ентропію як функцію втрат та стохастичний градієнтний спуск для оптимізації моделі. Особливістю підходу є застосування фільтрів, що охоплюють частотний діапазон від 0 до 8000 Гц, що дозволяє детально аналізувати акустичні характеристики мовлення.

Практичне значення дослідження важко переоцінити. В епоху масових комунікацій та поширення штучного інтелекту технології виявлення аудіофейків стають критично важливими для забезпечення інформаційної безпеки. Розроблений метод може бути застосований у різних сферах — від журналістики та медіа до кіберзахисту та судової експертизи.

Подальші дослідження, за словами вчених, будуть спрямовані на вдосконалення методу, зменшення обчислювальних витрат та підвищення адаптивності моделі до нових типів маніпуляцій з голосом. Робота Уляни Збежховської та її колег відкриває нові горизонти в боротьбі з дезінформацією та штучно створеним контентом.

DOI