Бенчмарк SWE-rebench обновил результаты сравнения ИИ-инструментов для программирования. Абсолютным лидером стал Claude Code — агент Anthropic для работы в терминале, который успешно справился с 62,1% реальных задач из GitHub-репозиториев. Среди закрытых моделей первое место занял GPT-5.2-medium от OpenAI с показателем 61,3%, а в категории open-source уверенно лидирует DeepSeek V3.2, набравший 46,4%.
В отличие от классического SWE-bench, новый SWE-rebench основан на свежем наборе заданий: сейчас это 47 задач из 20 репозиториев. Такой подход заметно снижает риск контаминации — ситуации, когда модель уже видела решение в обучающих данных, — хотя полностью исключить её, особенно для самых новых моделей вроде GPT-5.2, всё ещё невозможно.
Отрыв Claude Code объясняется его архитектурой. Это полноценный агент для командной строки, который самостоятельно читает проектные файлы, запускает тесты и поэтапно вносит правки в код. Благодаря этому он опередил Claude Opus 4.5 и Claude Sonnet 4.5, работающих через стандартный API и занявших третью и четвёртую позиции с результатами около 60%. Цена за такой подход — рекордное потребление ресурсов: почти 2 млн токенов на одну задачу, больше, чем у всех моделей из топ-10.
GPT-5.2-medium вышел 12 декабря — всего за несколько дней до публикации рейтинга — и сразу закрепился на втором месте. Модель оказалась заметно экономичнее конкурентов: в среднем 884 тыс. токенов на задачу против 1,2–1,9 млн у решений Anthropic и ранних версий GPT-5. Стоимость одного задания составляет около $0,47, что делает GPT-5.2-medium одним из самых выгодных вариантов в первой пятёрке. Примечательно и то, что версия «medium» обошла GPT-5.1-Codex-Max, ранее позиционировавшуюся OpenAI как флагман для программирования.
В сегменте открытых моделей лидерство досталось DeepSeek V3.2 с результатом 46,4%. Он немного опередил GLM-4.6 (46%) и новые Devstral-2 от Mistral (43,8% для версии 123B). При цене около $0,56 за задачу китайская модель предлагает уровень качества, сопоставимый с проприетарными системами прошлого поколения, но при более низкой стоимости. Однако в общем зачёте DeepSeek V3.2 пока занимает лишь 13-е место.
В отличие от классического SWE-bench, новый SWE-rebench основан на свежем наборе заданий: сейчас это 47 задач из 20 репозиториев. Такой подход заметно снижает риск контаминации — ситуации, когда модель уже видела решение в обучающих данных, — хотя полностью исключить её, особенно для самых новых моделей вроде GPT-5.2, всё ещё невозможно.
Отрыв Claude Code объясняется его архитектурой. Это полноценный агент для командной строки, который самостоятельно читает проектные файлы, запускает тесты и поэтапно вносит правки в код. Благодаря этому он опередил Claude Opus 4.5 и Claude Sonnet 4.5, работающих через стандартный API и занявших третью и четвёртую позиции с результатами около 60%. Цена за такой подход — рекордное потребление ресурсов: почти 2 млн токенов на одну задачу, больше, чем у всех моделей из топ-10.
GPT-5.2-medium вышел 12 декабря — всего за несколько дней до публикации рейтинга — и сразу закрепился на втором месте. Модель оказалась заметно экономичнее конкурентов: в среднем 884 тыс. токенов на задачу против 1,2–1,9 млн у решений Anthropic и ранних версий GPT-5. Стоимость одного задания составляет около $0,47, что делает GPT-5.2-medium одним из самых выгодных вариантов в первой пятёрке. Примечательно и то, что версия «medium» обошла GPT-5.1-Codex-Max, ранее позиционировавшуюся OpenAI как флагман для программирования.
В сегменте открытых моделей лидерство досталось DeepSeek V3.2 с результатом 46,4%. Он немного опередил GLM-4.6 (46%) и новые Devstral-2 от Mistral (43,8% для версии 123B). При цене около $0,56 за задачу китайская модель предлагает уровень качества, сопоставимый с проприетарными системами прошлого поколения, но при более низкой стоимости. Однако в общем зачёте DeepSeek V3.2 пока занимает лишь 13-е место.