Науковці розробили штучний інтелект для передбачення мутагенності хімічних сполук


Дослідники з КПІ та Університету Джорджа Вашингтона створили чотири моделі машинного навчання, які з точністю 85% можуть передбачати мутагенні властивості хімічних речовин без проведення тестів на тваринах

Зображення Freepik
Зображення Freepik

Стрімкий розвиток промисловості призвів до експоненційного зростання кількості хімічних сполук, що потрапляють у довкілля та можуть впливати на генетичний апарат людини. Станом на серпень 2024 року кількість зареєстрованих ксенобіотиків, інформація про які зберігається на серверах Американського хімічного товариства, перевищила 280 мільйонів речовин. На початок 2020 року була доступна інформація про понад 100 000 хімічних речовин промислового виробництва, які можуть негативно впливати на довкілля та здоров'я людини, зокрема на генетичне здоров'я.

Традиційні методи оцінки генетичних ефектів, розроблені та широко використовувані протягом останніх десятиліть, мають суттєві недоліки. Вони складні у виконанні, дорогі, тривалі, мають проблеми з відтворюваністю результатів у різних лабораторіях та стикаються з етичними проблемами використання теплокровних тварин в експериментах.

Група науковців з КПІ ім. Ігоря Сікорського та Університету Джорджа Вашингтона розробила новий підхід до оцінки мутагенності хімічних сполук за допомогою штучного інтелекту. Дослідники створили чотири моделі машинного навчання, які можуть передбачати мутагенні властивості речовин з точністю 85%, що відповідає відтворюваності даних тесту Еймса між різними лабораторіями.

Для розробки моделей вчені використали набір даних з 8083 хімічних сполук, для яких була експериментально отримана інформація про потенційну мутагенну активність за допомогою тесту Еймса. Цей тест є стандартним методом оцінки мутагенності, який використовується лабораторіями по всьому світу вже понад 50 років.

Дослідники застосували чотири різні підходи машинного навчання: логістичну регресію, логістичну регресію з використанням стохастичного градієнтного спуску, метод випадкового лісу та нейронну мережу. Загальну вибірку даних було розділено на тренувальну (75%) та тестову (25%) частини.

Найкращі результати показав метод випадкового лісу з показником AUC 0,92 та точністю 86%. Нейронна мережа продемонструвала дещо нижчу ефективність з точністю 83% та чутливістю 82%. Порівняння звітів класифікації для двох регресійних моделей дозволило надати перевагу моделі з використанням стохастичного градієнтного спуску, яка ефективніше ідентифікує істинно позитивні випадки мутагенності.

Важливим аспектом дослідження стала оптимізація моделей шляхом зменшення розмірності вхідних даних. Науковці розробили методологію формування списку основних молекулярних дескрипторів, які мають значний вплив на прогнозовану змінну. Використання обмеженого набору з 276 молекулярних дескрипторів дозволило підвищити точність логістичних регресій до 80%, а нейронної мережі — до 84%.

Розроблені моделі дозволяють уникнути використання тварин в експериментах, заощадити час та зменшити кількість хибних результатів при оцінці генотоксичного потенціалу хімічних сполук. Це особливо важливо з огляду на постійне збільшення кількості нових хімічних речовин, що потребують оцінки безпечності.

Дослідження проводили Сергій Кисляк, Олександр Дуган, Роман Єсипенко, Дмитро Старосила та Олена Яловенко. Результати їхньої роботи опубліковані в журналі Innovative Biosystems and Bioengineering за 2025 рік.

— За матеріалами Innovative Biosystems and Bioengineering