Мова R стала потужним інструментом для аналізу даних


Програмна мова R зазнала значних покращень після 2020 року, що зробило її зручнішою для наукових досліджень.

Зображення Watts Up With That?
Зображення Watts Up With That?

Програмна мова R, яка понад десять років використовується для статистичного аналізу, зазнала суттєвих змін після 2020 року. Про це розповідає дослідник Енді Мей, який працює з даними радіозондів IGRA2. Раніше мова була незручною у використанні, але нові оновлення зробили її значно доступнішою.

Одним з ключових покращень стала функція fwrite з пакету data.table, розроблена Отто Сейскарі та Меттом Доулом. До 2020 року вона стала повністю паралельною і працює у 10−100 разів швидше за альтернативні функції запису даних. Для читання файлів CSV доступна швидка функція fread.

У червні 2020 року вийшов пакет dplyr, створений Хедлі Вікхемом. Особливо корисним виявився оператор pipe, який позначається як %>%. Він дозволяє писати код більш читабельно та інтуїтивно. Наприклад, замість складного вкладеного коду можна використовувати послідовний запис операцій.

Хедлі Вікхем разом з колегами розробив tidyverse — набір узгоджених пакетів для сучасних робочих процесів у R. До 2019 року tidyverse став зрілим набором інструментів. За словами Вікхема, 80 відсотків часу аналізу даних витрачається на їх очищення та підготовку.

Важливою частиною tidyverse є ggplot2 — потужний інструмент для створення графіків та карт. Вікхем створив початкову версію під час навчання в Університеті штату Айова, надихнувшись книгою Леланда Вілкінсона «Граматика графіки» 1999 року.

У 2022 році Роберт Хіймансз представив пакет terra для картографування, який замінив застарілі raster та sp. Пакет tidyterra, розроблений Дієго Ернангомесом, успішно інтегрував можливості tidyverse та ggplot2 з terra. Завдяки цим розробкам між 2023 та 2025 роками R перетворився на надійну мову для обробки даних та їх візуалізації.

— За матеріалами Watts Up With That?