OpenAI представила GPT-4.1 — новую флагманскую модель для задач программирования

OpenAI анонсировала выпуск обновлённой линейки языковых моделей — GPT-4.1, включающей версии GPT-4.1 mini и GPT-4.1 nano. Эти модели значительно превосходят предыдущие поколения (включая GPT-4o и GPT-4o mini), особенно в сфере программирования, точности выполнения инструкций и работе с расширенным контекстом — теперь до миллиона токенов. База знаний моделей обновлена до июня 2024 года.

Да, речь идёт о том самом загадочном Quasar, появление которого недавно засекли пользователи OpenRouter. Теперь же стало ясно, что это и была новая модель.

Ключевые особенности и улучшения:

Программирование:

GPT-4.1 добилась рекордных 54,6% на тесте SWE-bench Verified, превзойдя результат GPT-4o на 21,4%.
Улучшена работа с diff-форматом, что позволяет эффективнее вносить изменения в код и сокращать время разработки.
Снижен процент лишних правок в коде — с 9% до всего 2%.
Созданные с помощью GPT-4.1 веб-приложения получаются более качественными как по функциональности, так и по дизайну. В 80% случаев пользователи выбрали результаты GPT-4.1 по сравнению с предыдущей моделью.

Во внутреннем тесте Windsurf, сфокусированном на программировании, GPT-4.1 набрала на 60% больше баллов, чем GPT-4o. Это также отразилось на реальной практике — код, сгенерированный новой моделью, чаще принимался с первой попытки. По отзывам пользователей, GPT-4.1 на 30% лучше справляется с вызовом нужных инструментов и на 50% реже повторяет лишние шаги или излишне детализирует простые участки кода.

Точность в следовании инструкциям:

GPT-4.1 демонстрирует заметный прогресс в понимании и выполнении сложных, многошаговых инструкций — особенно в задачах повышенной сложности.

Были значительно улучшены:

реакция на негативные промпты;
точность форматирования;
строгое соблюдение заданных требований по структуре и содержанию.

Во внутреннем тестировании OpenAI, посвящённом выполнению сложных инструкций, GPT-4.1 набрал 49% — по сравнению с 29% у GPT-4o.

Работа с большим контекстом:

GPT-4.1 теперь поддерживает контекст до 1 миллиона токенов (против 128 тысяч у предыдущей версии).

Модель уверенно справляется с поиском нужной информации — даже глубоко «спрятанной» в массиве данных, вне зависимости от её положения.

Также улучшены навыки:

многошагового логического анализа;
извлечения информации из большого количества документов.

В новом бенчмарке OpenAI-MRCR, проверяющем способность к многоходовому извлечению данных, GPT-4.1 показала значительно лучшие результаты, чем GPT-4o.

Ну просто посмотрите на это. Абсолютный результат.

Мультимодальные возможности и визуальные задачи:

GPT-4.1 лидирует в задачах на обработку изображений и мультимодальных данных:

Лучшие результаты в тестах MMMU (интерпретация графиков и карт) и MathVista (визуальные математические задачи).
Повышенная эффективность при анализе длинных видео — 72% точности в Video-MME против 65% у GPT-4o.

Компактные версии: GPT-4.1 mini и nano

GPT-4.1 mini: почти в два раза быстрее, на 83% дешевле, при этом сохраняет высокий уровень качества.
GPT-4.1 nano: самая быстрая и доступная модель, оптимально подходит для задач автодополнения кода и классификации.