Новый рейтинг AI-кодеров: Claude Code, GPT-5.2 и DeepSeek V3.2 — лучшие в своих классах

2025-12-18 16:16

Бенчмарк SWE-rebench обновил результаты сравнения ИИ-инструментов для программирования. Абсолютным лидером стал Claude Code — агент Anthropic для работы в терминале, который успешно справился с 62,1% реальных задач из GitHub-репозиториев. Среди закрытых моделей первое место занял GPT-5.2-medium от OpenAI с показателем 61,3%, а в категории open-source уверенно лидирует DeepSeek V3.2, набравший 46,4%.

В отличие от классического SWE-bench, новый SWE-rebench основан на свежем наборе заданий: сейчас это 47 задач из 20 репозиториев. Такой подход заметно снижает риск контаминации — ситуации, когда модель уже видела решение в обучающих данных, — хотя полностью исключить её, особенно для самых новых моделей вроде GPT-5.2, всё ещё невозможно.

Отрыв Claude Code объясняется его архитектурой. Это полноценный агент для командной строки, который самостоятельно читает проектные файлы, запускает тесты и поэтапно вносит правки в код. Благодаря этому он опередил Claude Opus 4.5 и Claude Sonnet 4.5, работающих через стандартный API и занявших третью и четвёртую позиции с результатами около 60%. Цена за такой подход — рекордное потребление ресурсов: почти 2 млн токенов на одну задачу, больше, чем у всех моделей из топ-10.

GPT-5.2-medium вышел 12 декабря — всего за несколько дней до публикации рейтинга — и сразу закрепился на втором месте. Модель оказалась заметно экономичнее конкурентов: в среднем 884 тыс. токенов на задачу против 1,2–1,9 млн у решений Anthropic и ранних версий GPT-5. Стоимость одного задания составляет около $0,47, что делает GPT-5.2-medium одним из самых выгодных вариантов в первой пятёрке. Примечательно и то, что версия «medium» обошла GPT-5.1-Codex-Max, ранее позиционировавшуюся OpenAI как флагман для программирования.

В сегменте открытых моделей лидерство досталось DeepSeek V3.2 с результатом 46,4%. Он немного опередил GLM-4.6 (46%) и новые Devstral-2 от Mistral (43,8% для версии 123B). При цене около $0,56 за задачу китайская модель предлагает уровень качества, сопоставимый с проприетарными системами прошлого поколения, но при более низкой стоимости. Однако в общем зачёте DeepSeek V3.2 пока занимает лишь 13-е место.