Українські дослідники представили інноваційний підхід до вирішення проблем аналізу даних


Українські вчені розробили метод імпутації даних на основі ентропії, який покращує результати класифікації при роботі з неповними наборами даних.

Фото Freepik
Фото Freepik

Вчені з Дніпровського національного університету імені Олеся Гончара представили інноваційний підхід до вирішення однієї з ключових проблем у сфері аналізу даних — заповнення пропусків у наборах інформації. Новий метод, заснований на мінімізації умовної ентропії, дозволяє ефективніше працювати з неповними даними, покращуючи точність моделей класифікації. Дослідження, опубліковане в журналі «Системні технології» у 2024 році, демонструє потенціал цього підходу для задач, пов’язаних з обробкою великих обсягів інформації, зокрема в медичній діагностиці.

Пропуски в даних — поширена проблема, яка виникає через технічні збої, людський фактор чи специфіку збору інформації. Вони ускладнюють роботу алгоритмів машинного навчання, адже більшість моделей не можуть безпосередньо обробляти відсутні значення. Існують різні типи пропусків: випадкові, залежні від інших змінних або пов’язані з самими відсутніми даними. Новий метод фокусується на перших двох категоріях — повністю випадкових пропусках і тих, що можна пояснити іншими відомими змінними. Такий підхід робить його універсальним для багатьох реальних сценаріїв.

Суть запропонованого рішення полягає у використанні ентропії — міри невизначеності в даних. Дослідники розробили два алгоритми: неітераційний та ітераційний. Перший заповнює пропуски, обираючи значення, яке зменшує невизначеність для кожної ознаки окремо. Другий додає кілька циклів уточнення, продовжуючи процес, поки невизначеність перестає знижуватися. Обидва методи підходять як для якісних характеристик, наприклад категорій, так і для кількісних — дискретних чи неперервних величин. Для неперервних даних автори пропонують спочатку розбити їх на інтервали, а потім застосувати алгоритм, що значно спрощує обробку.

Щоб перевірити ефективність розробки, вчені провели три види тестів на двох наборах даних, пов’язаних з ішемічною хворобою серця: UCI Heart Disease Data та Framingham Heart Study. Перший тест порівнював точність заповнення пропусків і швидкість роботи алгоритмів зі штучно доданими пропусками. Результати показали, що новий метод поступається за швидкістю традиційним підходам, таким як заповнення середнім значенням чи методом найближчих сусідів, але значно перевершує їх у зменшенні невизначеності. Другий тест підтвердив, що ентропійний підхід суттєво знижує рівень невизначеності в даних, особливо для неперервних величин, таких як рівень холестерину.

Найцікавіші результати отримані в третьому тесті, який оцінював якість класифікації. Використовуючи модель випадкового лісу, дослідники порівняли точність прогнозування на основі даних, оброблених різними методами. На наборі UCI Heart Disease Data точність зросла з 83% для базової моделі до 90% із застосуванням ентропійного алгоритму. На Framingham Heart Study показники також покращилися, хоча різниця була менш вираженою через вищий початковий рівень повноти даних. Це свідчить про те, що метод особливо цінний для наборів із великою кількістю пропусків.

Порівняння з іншими техніками, такими як генеративні змагальні мережі чи автоенкодери, показало, що ентропійний підхід не вимагає складних обчислень чи великих ресурсів для навчання моделей, що є його перевагою. Однак він має й недоліки: алгоритм працює повільніше за простіші методи, такі як заповнення найпоширенішим значенням. Дослідники зазначають, що продуктивність можна підвищити, наприклад, за допомогою багатопоточної обробки, коли кожна ознака аналізується незалежно в окремому потоці.

Цей підхід відкриває нові можливості для роботи з даними в галузях, де точність має критичне значення, наприклад у медицині. Автори підкреслюють, що їхня розробка не є універсальним рішенням, але може стати цінним інструментом у поєднанні з іншими методами. У майбутньому планується оптимізувати алгоритм для прискорення обчислень і розширити його застосування на більші набори даних із різних сфер.

Дослідження провели Олексій Земляний та Олег Байбуз, доктор технічних наук, професор і завідувач кафедри математичного забезпечення ЕОМ Дніпровського національного університету імені Олеся Гончара. Їхня робота є частиною ширшої програми з удосконалення методів обробки даних для машинного навчання.

DOI