DeepSeek V3.2-Exp: ускорение и удешевление API для длинных контекстов
2025-09-29 14:45
Компания DeepSeek выпустила экспериментальную версию своей языковой модели — V3.2-Exp, которая сосредоточена на повышении производительности при работе с длинными контекстами. Новинка уже доступна на Hugging Face и GitHub под открытой лицензией.
Основные новшества
Ключевое нововведение — механизм разреженного внимания DSA, обеспечивающий:
Снижение вычислительной нагрузки за счёт выборочной обработки токенов
Поддержание качества генерации при меньшем расходе ресурсов
Аппаратную оптимизацию и динамическую маршрутизацию
Эффективную работу с большими объёмами текста
Технические особенности
Общий объём параметров — 671B, активных на токен — 37B
Архитектура: Multi-head Latent Attention (MLA)
Поддержка контекста до 128K токенов
Возможность предсказания нескольких токенов одновременно
Оптимизация производительности
Модель применяет несколько ключевых улучшений:
Кэширование промежуточных результатов
Умная маршрутизация экспертов для равномерной нагрузки
Полная сохранность токенов при обучении и инференсе
Преимущества по сравнению с V3.1
В 2–3 раза быстрее обрабатывает длинные тексты
Памяти требуется на 40% меньше при контексте >64K
Без потери качества генерации
Устойчивее при масштабировании
Поддерживаемые функции:
Function calling, JSON-вывод
Fill-in-the-Middle (FIM) для дополнения кода
Диалоги с памятью
Работа с документами до 100,000 слов
V3.2-Exp эффективна для:
Суммаризации и анализа технических документов
Работы с большими кодовыми базами
Интеллектуальных ассистентов
Автоматизации обработки обращений и документов
Производительность и сравнение
+45% скорости при 32K контексте
–35% потребления памяти при 64K
Стабильность при 128K токенов
Сопоставимо с GPT-4, быстрее Claude 3 и масштабируемее Llama 3.1 405B
Ограничения и рекомендации
Особенности:
Всё ещё в экспериментальной стадии
Требует минимум 8xA100 80GB
DSA может нестабильно работать на узкоспециализированных задачах
Советы:
Использовать квантизацию и батчинг
Настраивать параметры генерации под задачу
Следить за использованием памяти при больших контекстах
Будущее и вклад сообщества
DeepSeek планирует:
Расширить контекст до 256K токенов
Повысить эффективность DSA
Улучшить многоязычную поддержку
Интеграцию с облачными платформами
Проект открыт для комьюнити:
Оптимизация под разное железо
Адаптеры и бенчмарки
Улучшение документации и примеры
DeepSeek V3.2-Exp — значимый шаг к более эффективным языковым моделям для работы с большими объёмами текста. Инновации в архитектуре внимания позволяют сочетать высокое качество генерации с меньшими затратами, что открывает широкие перспективы для использования в реальных продуктах и исследованиях.