Ілон Маск представив Grok 4 — найрозумнішу ШІ у світі


Компанія xAI Ілона Маска випустила нову модель штучного інтелекту Grok 4, яка показала найкращі результати на тестах академічних знань

Зображення Scientific American
Зображення Scientific American

Ілон Маск представив нову модель штучного інтелекту Grok 4 від своєї компанії xAI у середу ввечері під час годинної публічної презентації. Він назвав цю модель «найрозумнішою штучною інтелектуальною системою у світі» та заявив, що вона здатна отримувати ідеальні результати на тестах SAT та майже ідеальні результати на іспитах GRE з усіх предметів, від гуманітарних наук до точних дисциплін.

Під час онлайн-презентації Маск та члени його команди описали тестування Grok 4 за допомогою метрики під назвою «Останній іспит людства» (Humanity's Last Exam, HLE) — еталонного тесту з 2500 питань, розробленого для оцінки академічних знань та навичок міркування штучного інтелекту. Тест створили майже тисяча експертів-людей з понад 100 дисциплін, його випустили у січні 2025 року. Він охоплює теми від класичних наук до квантової хімії та поєднує текст із зображеннями.

За повідомленнями, Grok 4 самостійно набрав 25,4 відсотка балів. Однак з доступом до інструментів, таких як зовнішні засоби для виконання коду або веб-пошуку, результат досяг 38,6 відсотка. Це число зросло до 44,4 відсотка з версією під назвою Grok 4 Heavy, яка використовує кілька агентів штучного інтелекту для розв'язання проблем. Двома наступними найкращими моделями штучного інтелекту є Gemini-Pro від Google, яка досягла 26,9 відсотка з інструментами, та модель o3 від OpenAI, яка отримала 24,9 відсотка, також з інструментами.

Результати внутрішнього тестування xAI ще не з'явилися в таблиці лідерів HLE, і залишається незрозумілим, чи це тому, що xAI ще не подала результати, чи тому, що ці результати очікують на розгляд. Manifold, платформа соціального прогнозування, де користувачі роблять ставки ігровими грошима під назвою «Мана» на майбутні події в політиці, технологіях та інших сферах, передбачила лише один відсоток імовірності станом на п'ятницю ранку, що Grok 4 дебютує в таблиці лідерів HLE з результатом 45 відсотків або більше на іспиті протягом місяця після випуску. При цьому xAI заявила про результат лише 44,4 відсотка.

Під час презентації команда xAI також провела живі демонстрації, показуючи, як Grok 4 аналізує коефіцієнти в бейсболі, визначає, у якого співробітника xAI найдивніше фото профілю в мережі X, та генерує симульовану візуалізацію чорної діри. Маск припустив, що система може відкрити абсолютно нові технології до кінця цього року та можливо «нову фізику» до кінця наступного року. Ігри та фільми також на горизонті — Маск прогнозує, що Grok 4 зможе створювати ігрові проекти та фільми для перегляду до 2026 року.

Grok 4 також має нові аудіо можливості, включаючи голос, який співав під час презентації. Маск сказав, що незабаром будуть випущені нові інструменти для генерації зображень та програмування. Звичайна версія Grok 4 коштує 30 доларів на місяць, а SuperGrok Heavy — делюкс-пакет з кількома агентами та дослідницькими інструментами — коштує 300 доларів.

Artificial Analysis, незалежна платформа для порівняльного аналізу, яка ранжує моделі штучного інтелекту, тепер ставить Grok 4 на найвище місце в своєму Індексі штучного інтелекту Artificial Analysis, трохи випереджаючи Gemini 2.5 Pro та o4-mini-high від OpenAI. Grok 4 також з'являється як найкраща публічно доступна модель у таблицях лідерів для Abstraction and Reasoning Corpus, або ARC-AGI-1, та його другого видання ARC-AGI-2 — еталонних тестів, які вимірюють прогрес у напрямку «людиноподібного» загального інтелекту.

Грег Камрадт, президент ARC Prize Foundation, некомерційної організації, яка підтримує дві таблиці лідерів, каже, що коли команда xAI зв'язалася з фондом з результатами Grok 4, організація потім незалежно протестувала Grok 4 на наборі даних, до якого команда xAI не мала доступу, та підтвердила результати. «Перш ніж ми повідомляємо про продуктивність будь-якої лабораторії, вона не перевірена, поки ми її не перевіримо», каже Камрадт. «Ми схвалили слайд з результатами тестування, який команда xAI показала на презентації».

Згідно з xAI, Grok 4 також перевершує інші системи штучного інтелекту за низкою додаткових еталонних тестів, які свідчать про його силу в STEM-предметах. Алекс Олтяну, старший редактор з науки про дані на освітній платформі штучного інтелекту DataCamp, тестував систему. «Grok показав сильні результати в математиці та програмуванні в моїх тестах, і я був вражений якістю його ланцюгового міркування, яке демонструє винахідливий та логічно обґрунтований підхід до розв'язання проблем», каже Олтяну. «Однак його контекстне вікно не дуже конкурентоспроможне, і він може мати труднощі з великими кодовими базами, як ті, з якими ви стикаєтеся у виробництві. Він також не впорався, коли я попросив його проаналізувати 170-сторінковий PDF-файл, ймовірно, через обмежене контекстне вікно та слабкі мультимодальні здібності».

Мультимодальні здібності стосуються здатності моделі аналізувати більше одного типу даних одночасно, наприклад, комбінацію тексту, зображень, аудіо та відео.

На більш тонкому рівні з моменту випуску Grok 4 виникли проблеми. Кілька користувачів у мережі X, яка належить самому Маску, а також технологічні новинні видання повідомили, що коли Grok 4 задавали питання про ізраїльсько-палестинський конфлікт, аборти та американське імміграційне законодавство, він часто шукав позицію Маска з цих питань, посилаючись на його пости в X та статті, написані про нього.

Випуск Grok 4 відбувається після кількох суперечок з Grok 3, попередньою моделлю, яка видавала результати, що включали антисемітські коментарі, похвалу Гітлера та заяви про «білий геноцид» — інциденти, які xAI публічно визнала, пояснивши їх несанкціонованими маніпуляціями та заявивши, що компанія впроваджує коригувальні заходи.

В один момент під час презентації Маск прокоментував, як створення штучного інтелекту розумнішого за людей лякає, хоча він сказав, що вірить, що кінцевий результат буде хорошим — ймовірно. «Я дещо змирився з тим фактом, що навіть якщо це не буде добре, я б принаймні хотів залишитися живим, щоб побачити, як це станеться», сказав він.

— За матеріалами Scientific American