OpenAI анонсировала выпуск обновлённой линейки языковых моделей — GPT-4.1, включающей версии GPT-4.1 mini и GPT-4.1 nano. Эти модели значительно превосходят предыдущие поколения (включая GPT-4o и GPT-4o mini), особенно в сфере программирования, точности выполнения инструкций и работе с расширенным контекстом — теперь до миллиона токенов. База знаний моделей обновлена до июня 2024 года.
Да, речь идёт о том самом загадочном Quasar, появление которого недавно засекли пользователи OpenRouter. Теперь же стало ясно, что это и была новая модель.
Ключевые особенности и улучшения:
Программирование:
Во внутреннем тесте Windsurf, сфокусированном на программировании, GPT-4.1 набрала на 60% больше баллов, чем GPT-4o. Это также отразилось на реальной практике — код, сгенерированный новой моделью, чаще принимался с первой попытки. По отзывам пользователей, GPT-4.1 на 30% лучше справляется с вызовом нужных инструментов и на 50% реже повторяет лишние шаги или излишне детализирует простые участки кода.
Точность в следовании инструкциям:
GPT-4.1 демонстрирует заметный прогресс в понимании и выполнении сложных, многошаговых инструкций — особенно в задачах повышенной сложности.
Были значительно улучшены:
Во внутреннем тестировании OpenAI, посвящённом выполнению сложных инструкций, GPT-4.1 набрал 49% — по сравнению с 29% у GPT-4o.
Работа с большим контекстом:
GPT-4.1 теперь поддерживает контекст до 1 миллиона токенов (против 128 тысяч у предыдущей версии).
Модель уверенно справляется с поиском нужной информации — даже глубоко «спрятанной» в массиве данных, вне зависимости от её положения.
Также улучшены навыки:
В новом бенчмарке OpenAI-MRCR, проверяющем способность к многоходовому извлечению данных, GPT-4.1 показала значительно лучшие результаты, чем GPT-4o.
Ну просто посмотрите на это. Абсолютный результат.
Мультимодальные возможности и визуальные задачи:
GPT-4.1 лидирует в задачах на обработку изображений и мультимодальных данных:
Компактные версии: GPT-4.1 mini и nano
Да, речь идёт о том самом загадочном Quasar, появление которого недавно засекли пользователи OpenRouter. Теперь же стало ясно, что это и была новая модель.
Ключевые особенности и улучшения:
Программирование:
- GPT-4.1 добилась рекордных 54,6% на тесте SWE-bench Verified, превзойдя результат GPT-4o на 21,4%.
- Улучшена работа с diff-форматом, что позволяет эффективнее вносить изменения в код и сокращать время разработки.
- Снижен процент лишних правок в коде — с 9% до всего 2%.
- Созданные с помощью GPT-4.1 веб-приложения получаются более качественными как по функциональности, так и по дизайну. В 80% случаев пользователи выбрали результаты GPT-4.1 по сравнению с предыдущей моделью.
Во внутреннем тесте Windsurf, сфокусированном на программировании, GPT-4.1 набрала на 60% больше баллов, чем GPT-4o. Это также отразилось на реальной практике — код, сгенерированный новой моделью, чаще принимался с первой попытки. По отзывам пользователей, GPT-4.1 на 30% лучше справляется с вызовом нужных инструментов и на 50% реже повторяет лишние шаги или излишне детализирует простые участки кода.
Точность в следовании инструкциям:
GPT-4.1 демонстрирует заметный прогресс в понимании и выполнении сложных, многошаговых инструкций — особенно в задачах повышенной сложности.
Были значительно улучшены:
- реакция на негативные промпты;
- точность форматирования;
- строгое соблюдение заданных требований по структуре и содержанию.
Во внутреннем тестировании OpenAI, посвящённом выполнению сложных инструкций, GPT-4.1 набрал 49% — по сравнению с 29% у GPT-4o.
Работа с большим контекстом:
GPT-4.1 теперь поддерживает контекст до 1 миллиона токенов (против 128 тысяч у предыдущей версии).
Модель уверенно справляется с поиском нужной информации — даже глубоко «спрятанной» в массиве данных, вне зависимости от её положения.
Также улучшены навыки:
- многошагового логического анализа;
- извлечения информации из большого количества документов.
В новом бенчмарке OpenAI-MRCR, проверяющем способность к многоходовому извлечению данных, GPT-4.1 показала значительно лучшие результаты, чем GPT-4o.
Ну просто посмотрите на это. Абсолютный результат.
Мультимодальные возможности и визуальные задачи:
GPT-4.1 лидирует в задачах на обработку изображений и мультимодальных данных:
- Лучшие результаты в тестах MMMU (интерпретация графиков и карт) и MathVista (визуальные математические задачи).
- Повышенная эффективность при анализе длинных видео — 72% точности в Video-MME против 65% у GPT-4o.
Компактные версии: GPT-4.1 mini и nano
- GPT-4.1 mini: почти в два раза быстрее, на 83% дешевле, при этом сохраняет высокий уровень качества.
- GPT-4.1 nano: самая быстрая и доступная модель, оптимально подходит для задач автодополнения кода и классификации.