XLNet виявляє дезінформацію у війні Росії проти України


Дослідники застосували XLNet для класифікації дезінформації у твітах про війну Росії проти України, досягнувши високої точності.

Фото Freepik
Фото Freepik

У новому дослідженні, опублікованому в журналі «Radioelectronic and Computer Systems», міжнародна команда вчених розробила інноваційну методологію для виявлення дезінформації в умовах гібридної війни, зосередившись на конфлікті між Росією та Україною. Автори — Галина Падалко, Василь Чомко, Сергій Яковлев та Плініо П. Моріта — застосували передову модель машинного навчання XLNet, щоб аналізувати вміст соціальних мереж та класифікувати його на проросійські та нейтрально-проукраїнські наративи. Дослідження стало відповіддю на зростання інформаційних маніпуляцій, які стали ключовим інструментом у сучасних конфліктах, де цифрова сфера слугує полем битви за вплив.

Галина Падалко, яка працює в Національному аерокосмічному університеті «Харківський авіаційний інститут» та Університеті Ватерлоо, зазначила, що дезінформація у війні Росії проти України досягла безпрецедентного масштабу завдяки доступності штучного інтелекту. Команда зібрала 42 тисячі англомовних твітів за вересень 2022 року — період активних військових подій та гуманітарних криз, що спричинили сплеск пропаганди. З них 5 тисяч найбільш значущих повідомлень було вручну класифіковано двома експертами з російської дезінформації на дві категорії: проросійські та нейтрально-проукраїнські. Це дозволило створити збалансований набір даних для навчання моделі.

XLNet, розроблений на основі архітектури трансформерів, вирізняється своєю здатністю враховувати контекст усього тексту завдяки унікальному підходу до тренування на основі перестановок. На відміну від попередніх моделей, таких як BERT, він не маскує частини тексту, а враховує всі можливі послідовності слів, що робить його особливо ефективним для аналізу складних мовних конструкцій у дезінформації. Василь Чомко з Університету Ватерлоо пояснив, що модель пройшла ретельне попереднє оброблення даних, включно з видаленням шумів, таких як хештеги та спеціальні символи, а також оптимізацію гіперпараметрів для стабільності навчання.

Результати експериментів показали високу ефективність XLNet. На наборі з 1000 твітів модель досягла точності 95%, а при збільшенні до 2000 твітів цей показник зріс до 98%. Показники точності (precision), повноти (recall) та F1-балу перевищували 0.91 для обох класів навіть на найбільших наборах даних (5000 твітів). Сергій Яковлев, який представляє Лодзький технологічний університет та Харківський національний університет імені В. Н. Каразіна, підкреслив, що модель краще розпізнавала нейтрально-проукраїнські твіти (recall 0.95), ніж проросійські (0.89), ймовірно через більш однорідні мовні патерни перших. Проте при збільшенні обсягу даних до 3000−5000 твітів точність дещо знизилася до 93%, що вказує на вплив шуму та складності великих наборів.

Дослідження проводилося за допомогою системи UbiLab Misinformation Analysis System (U-MAS), яка забезпечувала доступ до API Twitter V2 для збору історичних та актуальних даних. Дані зберігалися у форматі JSON на Azure Blob Storage, а їхня валідність підтверджувалася експертами. Плініо П. Моріта з Університету Торонто та University Health Network наголосив, що обраний період — вересень 2022 року — відображає пік інформаційних кампаній, спрямованих на контроль наративів. Команда також врахувала довготривалі залежності в текстах, використовуючи механізм рекурентної уваги XLNet, що дало змогу виявляти тонкі ознаки пропаганди.

Практична цінність роботи полягає у створенні інструменту для автоматичного виявлення дезінформації в реальному часі, що може допомогти урядам та аналітикам протидіяти маніпуляціям. Однак автори визнають обмеження моделі: її чутливість до якості даних, високі обчислювальні вимоги та потребу в тонкому налаштуванні параметрів. Збільшення обсягу даних понад оптимальний рівень призводило до зниження продуктивності, що вимагає додаткових технік регуляризації чи аугментації.

Наукова новизна дослідження — у застосуванні XLNet до контексту гібридної війни, де багатоязикова та контекстно-чутлива пропаганда створює унікальні виклики. Результати відкривають шлях до вдосконалення автоматизованих систем моніторингу соціальних мереж, що є критично важливим у часи інформаційних воєн.

DOI