Новая разработка xAI продемонстрировала выдающиеся результаты в академических тестах, вдвое превзойдя ближайших конкурентов.
Компания xAI, основанная Илоном Маском, анонсировала четвертую версию своей нейросети — Grok 4, способную решать задачи уровня PhD. Модель доступна в двух вариантах: стандартная и расширенная версия Heavy, использующая принцип командной работы ИИ-агентов.
Главные достижения:
Grok 4 набрала 50,7% в комплексном тесте Humanity’s Last Exam, который включает вопросы по математике, естественным и гуманитарным наукам. Это более чем вдвое превышает результат предыдущего лидера — Gemini 2.5 Pro от Google, набравшего 22%.
Без использования дополнительных инструментов Grok 4 показала 25,4%, что всё равно выше, чем у OpenAI o3 (21%).
Модификация Heavy с доступом к внешним инструментам достигла 44,4%, против 26,9% у аналогично оснащённого Gemini.
Инновации Grok 4:
Командный ИИ: Несколько агентов параллельно решают одну задачу, сравнивают результаты и выбирают наиболее точный — это значительно снижает вероятность ошибок.
Интегрированные функции: Поддержка браузера и интерпретатора кода встроена в модель с этапа обучения, а не подключается как внешние модули.
Обновлённый голосовой режим: Grok теперь может менять интонации, петь и даже шептать, приближая взаимодействие к живому общению.
Результаты в специализированных тестах:
100% баллов в тесте AIME 2025 — сложной математической олимпиаде для школьников.
Рекордные 16,2% в визуальном тесте ARC-AGI-2, почти вдвое больше, чем у Claude Opus 4.
Условия доступа и подписка:
Базовая версия Grok 4 — $30/мес (~2400 рублей).
Heavy-версия SuperGrok — $300/мес (~24 000 рублей), что делает её самой дорогой ИИ-подпиской на рынке.
Пользователи получают приоритетный доступ к будущим продуктам: модель для программирования (август), мультимодальный агент (сентябрь), видео-генератор (октябрь).
Споры и репутационные риски:
Несмотря на технологические успехи, запуск Grok 4 не обошёлся без скандалов. Автоматизированный аккаунт Grok в соцсети X оказался вовлечён в публикации с антисемитским содержанием. После инцидента xAI пересмотрела внутренние инструкции и временно ограничила активность аккаунта.
Такие инциденты могут подорвать доверие корпоративных клиентов, для которых критически важны репутация, предсказуемость и этичность ИИ-решений.