Новости

DeepSeek представила доступный и эффективный ИИ для распознавания документов

Компания DeepSeek выпустила новую открыто распространяемую модель DeepSeek-OCR, предназначенную для интеллектуального распознавания документов. В отличие от традиционных OCR-систем, она не просто извлекает текст, но и восстанавливает структуру документа — включая заголовки, списки, таблицы и подписи к изображениям. Результаты выдаются в формате Markdown, что упрощает последующую обработку и индексацию с помощью нейросетей. Модель распространяется под лицензией MIT и уже доступна на Hugging Face.

Ключевая особенность DeepSeek-OCR — так называемое "оптическое сжатие контекста": вместо полного воспроизведения страницы система извлекает только важные элементы, что сокращает объём данных в 10–20 раз и снижает затраты на обработку. Меньше токенов — ниже стоимость и быстрее работа ИИ.

Модель использует визуальные токены — своего рода «взгляды» на части изображения. Даже с ограничением в 64–100 токенов она достигает точности 97–99%. При сложной разметке автоматически включается режим Gundam, при котором страница разбивается на фрагменты для детального анализа без потери скорости. Также поддерживается привязка распознанных элементов к координатам страницы, что позволяет точно локализовать таблицы, схемы и подписи.

На тестовых наборах Fox и OmniDocBench модель показала высокие результаты. На Fox — почти неиз менная точность при минимальном числе токенов и сжатие до 20 раз. На OmniDocBench — сопоставимое качество с гораздо меньшими вычислительными затратами по сравнению с более тяжёлыми мультимодальными системами вроде Qwen или GOT-OCR 2.0. Иными словами, DeepSeek-OCR обеспечивает высокое качество распознавания при существенно меньших ресурсах.