Новости

DeepSeek V3.2-Exp: ускорение и удешевление API для длинных контекстов

2025-09-29 14:45
Компания DeepSeek выпустила экспериментальную версию своей языковой модели — V3.2-Exp, которая сосредоточена на повышении производительности при работе с длинными контекстами. Новинка уже доступна на Hugging Face и GitHub под открытой лицензией.

Основные новшества

Ключевое нововведение — механизм разреженного внимания DSA, обеспечивающий:

  • Снижение вычислительной нагрузки за счёт выборочной обработки токенов
  • Поддержание качества генерации при меньшем расходе ресурсов
  • Аппаратную оптимизацию и динамическую маршрутизацию
  • Эффективную работу с большими объёмами текста

Технические особенности

  • Общий объём параметров — 671B, активных на токен — 37B
  • Архитектура: Multi-head Latent Attention (MLA)
  • Поддержка контекста до 128K токенов
  • Возможность предсказания нескольких токенов одновременно

Оптимизация производительности

Модель применяет несколько ключевых улучшений:

  • Кэширование промежуточных результатов
  • Умная маршрутизация экспертов для равномерной нагрузки
  • Полная сохранность токенов при обучении и инференсе

Преимущества по сравнению с V3.1

  • В 2–3 раза быстрее обрабатывает длинные тексты
  • Памяти требуется на 40% меньше при контексте >64K
  • Без потери качества генерации
  • Устойчивее при масштабировании

Поддерживаемые функции:

  • Function calling, JSON-вывод
  • Fill-in-the-Middle (FIM) для дополнения кода
  • Диалоги с памятью
  • Работа с документами до 100,000 слов

V3.2-Exp эффективна для:

  • Суммаризации и анализа технических документов
  • Работы с большими кодовыми базами
  • Интеллектуальных ассистентов
  • Автоматизации обработки обращений и документов

Производительность и сравнение

  • +45% скорости при 32K контексте
  • –35% потребления памяти при 64K
  • Стабильность при 128K токенов
  • Сопоставимо с GPT-4, быстрее Claude 3 и масштабируемее Llama 3.1 405B

Ограничения и рекомендации

Особенности:

  • Всё ещё в экспериментальной стадии
  • Требует минимум 8xA100 80GB
  • DSA может нестабильно работать на узкоспециализированных задачах

Советы:

  • Использовать квантизацию и батчинг
  • Настраивать параметры генерации под задачу
  • Следить за использованием памяти при больших контекстах

Будущее и вклад сообщества

DeepSeek планирует:

  • Расширить контекст до 256K токенов
  • Повысить эффективность DSA
  • Улучшить многоязычную поддержку
  • Интеграцию с облачными платформами

Проект открыт для комьюнити:

  • Оптимизация под разное железо
  • Адаптеры и бенчмарки
  • Улучшение документации и примеры


DeepSeek V3.2-Exp — значимый шаг к более эффективным языковым моделям для работы с большими объёмами текста. Инновации в архитектуре внимания позволяют сочетать высокое качество генерации с меньшими затратами, что открывает широкие перспективы для использования в реальных продуктах и исследованиях.