Claude Sonnet 4.5: новый лидер в программировании и агентных задачах

2025-09-30 12:20

Компания Anthropic представила улучшенную языковую модель Claude Sonnet 4.5, сфокусированную на повышенной эффективности в программировании и работе с агентами. В бенчмарке SWE-bench Verified, где модели исправляют реальные баги в open-source-проектах с учётом прохождения тестов, Sonnet 4.5 достигла 77,2% успешных решений. При использовании параллельного инференса (модель делает несколько попыток, выбирается наилучшая) результат вырос до 82% — это лучший показатель среди всех открытых ИИ-моделей на сегодня.

SWE-bench Verified считается одним из самых реалистичных тестов для оценки ИИ в роли помощника программиста. Для сравнения: предыдущие версии Sonnet и Opus 4.1 набирали 72–74%, а результаты GPT-5, по доступным данным, находятся на уровне около 73%.

Модель также продемонстрировала улучшения в других задачах. В тесте OSWorld, имитирующем повседневную работу за компьютером (браузер, формы, файлы), Sonnet 4.5 показала 61,4% — заметный рост по сравнению с прежними 42–44%. В математическом тесте AIME 2025 модель набрала 87% без инструментов и 100% при использовании Python-кода. В сценариях для финансовых агентов (Finance Agent) она впервые преодолела отметку в 55%.

Вместе с релизом обновились и инструменты: в Claude Code появились чекпоинты и улучшенный терминал, а также выпущено полноценное расширение для VS Code. Через Claude.ai теперь можно запускать код и создавать файлы — таблицы, документы, презентации. Для разработчиков представлен Agent SDK с возможностью управления памятью агентов и правами доступа.

Claude Sonnet 4.5 уже доступна через веб и мобильные приложения Claude.ai, API, а также на платформах Amazon Bedrock и Google Vertex AI. Цены остались прежними — $3 за миллион входных токенов и $15 за миллион выходных. Благодаря кэшированию подсказок можно экономить до 90% от стоимости.