Українські науковці розробили програму для автоматизації створення відео з AI


Вчені з Вінницького національного технічного університету та Донецького національного університету розробили інноваційну програму, що використовує штучний інтелект для автоматизованого створення відеоконтенту

Стрімкий розвиток цифрових технологій та зростаючий попит на відеоконтент спонукають науковців шукати нові рішення для автоматизації процесу створення відео. Дослідження показує, що у 2022 році кількість користувачів соціальних мереж сягнула 4,62 мільярда, а середній час перебування в інтернеті становить близько 7 годин на день, значна частина якого припадає на перегляд відео.

Традиційне виробництво відео вимагає значних витрат часу та ресурсів, особливо коли йдеться про озвучення, монтаж і підбір візуального контенту. Наприклад, компанія XEROX змогла скоротити час створення навчальних відео на 30% і зменшити витрати на 50% завдяки використанню AI-інструментів.

Науковці з Вінницького національного технічного університету та Донецького національного університету імені Василя Стуса розробили консольну програму на Python, яка використовує генеративний штучний інтелект для автоматизації створення відеоконтенту. Програма інтегрує різні API-інструменти та технології для забезпечення повного циклу виробництва відео.

Основними компонентами розробленої системи є:

  • Pexels API для отримання стокових відео
  • Jamendo API для пошуку музичного супроводу
  • OpenAI Whisper для транскрипції аудіо
  • Piper TTS та Coqui XTTS для генерації голосу
  • MoviePy і FFmpeg для обробки відео
  • Великі мовні моделі Claude та Meta Llama для аналізу та генерації тексту

Програма працює за модульним принципом, що забезпечує гнучкість та можливість розширення функціоналу. Конфігурація здійснюється через файли формату TOML, що дозволяє користувачам легко налаштовувати параметри роботи, включаючи ключі API та шляхи до вихідних каталогів.

Робочий процес програми складається з кількох етапів. Спочатку користувач надає текст для відео або через командний рядок, або через файл. Альтернативно, програма може генерувати текст за допомогою великих мовних моделей на основі запиту користувача. Далі відбувається аналіз тексту для виявлення ключових тем та концепцій.

На основі проаналізованого тексту програма здійснює пошук відповідних стокових відео через Pexels API та музичного супроводу через Jamendo API. Якщо користувач надає аудіофайл замість тексту, використовується OpenAI Whisper для транскрибування аудіо в текст.

Наступним етапом є генерація голосового озвучення за допомогою Piper TTS або Coqui XTTS. Користувач має можливість вибрати бажаний голос та налаштувати параметри озвучення. Фінальна збірка відео здійснюється за допомогою MoviePy, який об'єднує всі компоненти та додає необхідні ефекти чи переходи. FFmpeg використовується як бекенд для кодування відео та конвертації форматів.

Дослідники відзначають, що хоча існує багато інструментів для генерації відео з використанням AI, їхня програма пропонує унікальний підхід через консольний інтерфейс, що особливо корисно для розробників та користувачів, які віддають перевагу роботі через командний рядок.

Проте залишаються певні виклики, зокрема забезпечення релевантності та якості підібраних стокових матеріалів, досягнення природного звучання згенерованого озвучення та оптимізація процесу редагування відео. Майбутні напрямки досліджень можуть включати вдосконалення методів вибору медіаконтенту, покращення природності озвучення та розробку більш складних можливостей редагування.

Дослідження проводили старший викладач кафедри програмного забезпечення Вінницького національного технічного університету та кафедри інформаційних технологій Донецького національного університету імені Василя Стуса Павло Володимирович Римар та здобувач освіти 4 курсу спеціальності «Комп'ютерні науки» Донецького національного університету імені Василя Стуса Дмитро Ігорович Колібабчук.

DOI