NASA створила ШІ-систему для автоматичного пошуку наукових даних


Агентство розробило інструмент GCMD Keyword Recommender, який використовує штучний інтелект для автоматичного присвоєння ключових слів науковим наборам даних

Зображення NASA
Зображення NASA

Американське космічне агентство NASA представило оновлену версію інструменту GCMD Keyword Recommender, який використовує штучний інтелект для автоматичного присвоєння ключових слів науковим наборам даних. Розробка покликана вирішити проблему пошуку релевантної інформації серед величезних масивів наукових даних.

Проблема стандартизації наукових даних нагадує ситуацію з онлайн-покупками, коли різні продавці описують один товар різними термінами. У науці замість кросівок дослідники мають справу з такими поняттями, як «оптична глибина аерозолю» або «температура поверхні моря», а замість кількох роздрібних торговців — тисячі дослідників, приладів та постачальників даних.

Для вирішення цієї проблеми NASA створила Глобальний головний каталог змін, стандартизований словник, який допомагає науковцям позначати свої набори даних послідовним та зручним для пошуку способом. Однак з розвитком науки зростає і складність організації метаданих та їх пошуку.

Офіс науки про дані та інформатики NASA в Космічному центрі імені Маршалла в Хантсвіллі, штат Алабама, розробив оновлену версію GCMD Keyword Recommender — розумного інструменту, призначеного для автоматичного допомогання постачальникам даних та кураторам у присвоєнні правильних ключових слів.

Оновлена модель GKR вирішує масштабну проблему в інформатиці, відому як екстремальна багатомітна класифікація. Замість прогнозування лише однієї мітки модель повинна вибирати багато, іноді десятки, з набору тисяч варіантів. Кожен набір даних може потребувати позначення кількома нюансованими дескрипторами з контрольованого словника.

Нова версія GKR тепер розглядає понад 3200 ключових слів, порівняно з приблизно 430 у попередній версії. Це семикратне збільшення складності словника та значний стрибок у тому, що модель повинна вивчити та передбачити.

Для роботи з таким масштабом команда GKR не просто додала більше даних, а створила більш потужну модель з нуля. В основі оновлення лежить INDUS — передова мовна модель, навчена на 66 мільярдах слів з наукової літератури різних дисциплін, включаючи науки про Землю, біологічні науки, астрономію та інші.

«Ми перебуваємо на передовій найсучаснішого штучного інтелекту та машинного навчання для науки», — зазначив Саджил Авале, член команди NASA ODSI AI. «Ця проблемна область цікава і складна, оскільки це екстремальна проблема класифікації, де модель повинна розрізняти навіть дуже схожі ключові слова на основі невеликих варіацій контексту».

Це означає, що нова GKR не просто вгадує на основі подібності слів, а розуміє контекст, в якому з'являються ключові слова. Це різниця між моделлю, яка знає, що «опади» можуть стосуватися погоди, та розпізнаванням того, коли це означає кліматичну змінну в супутникових даних.

Попередня модель була навчена лише на 2000 записах метаданих, тоді як нова версія мала доступ до набагато багатшого набору даних з понад 43 000 записів з Загального репозиторію метаданих NASA. Це збільшене охоплення допомагає моделі робити більш точні прогнози.

Однією з найбільших перешкод у такому завданні є дисбаланс класів. Деякі ключові слова з'являються часто, інші можуть з'явитися лише кілька разів. Традиційні підходи машинного навчання, такі як втрата перехресної ентропії, яка спочатку використовувалася для навчання моделі, схильні віддавати перевагу легким, поширеним міткам та нехтувати рідкісними.

Для вирішення цього команда NASA звернулася до фокальної втрати — стратегії, яка зменшує увагу моделі до очевидних прикладів та переміщує фокус на складніші, недостатньо представлені випадки. Результатом стала модель, яка працює краще в цілому, особливо з ключовими словами, які найбільше важливі для спеціалістів, що шукають нішеві набори даних.

Наука залежить не лише від збору даних, але й від того, щоб зробити ці дані корисними та доступними для пошуку. Оновлений інструмент GKR є тихою, але критично важливою частиною цієї місії. Застосовуючи потужний штучний інтелект до завдання позначення метаданих, він допомагає забезпечити, щоб потік даних спостереження Землі, що надходить від супутників та приладів по всьому світу, не загубився в перекладі.

У світі, переповненому даними, такі інструменти, як GKR, допомагають дослідникам знайти сигнал у шумі та перетворити інформацію на розуміння. Крім підтримки GKR, мовна модель INDUS також забезпечує інновації в інших проектах NASA, включаючи підтримку Science Discovery Engine шляхом автоматизації курування метаданих та покращення рейтингу релевантності результатів пошуку.

— За матеріалами NASA