Компания Alibaba выпустила продвинутую мультимодальную модель Qwen3-VL, доступную в двух конфигурациях — с 4 и 8 миллиардами параметров. Она способна обрабатывать как текст, так и изображения, поддерживает контекст объёмом до 256 тысяч токенов, который можно расширить до 1 миллиона, и демонстрирует высокую точность в распознавании объектов и сцен из реального мира.
Ключевая особенность Qwen3-VL — поддержка открытой лексики. Модель распознаёт самые разнообразные элементы: от предметов повседневного обихода и логотипов до известных личностей и архитектурных достопримечательностей. Это позволяет ей не только анализировать изображения, но и глубже понимать их контекст.
Модель включает два основных режима:
Особое внимание уделено системе распознавания текста (OCR). Она обучена работать с изображениями низкого качества, включая размытые фотографии, рукописные заметки и отсканированные документы. Qwen3-VL уверенно извлекает текст даже с наклонённых или частично закрытых изображений, при этом поддерживает 32 языка, включая китайский, арабский, японский и казахский.
По ряду задач Qwen3-VL показывает сравнимую или лучшую производительность, чем значительно более крупная модель Qwen2.5-VL-72B, особенно в области пространственного анализа изображений и интерпретации текстово-визуальной информации.
Модель распространяется под лицензией Apache 2.0, что делает её одной из наиболее доступных и функциональных мультимодальных моделей с открытым исходным кодом. Код, веса и демо-версия уже опубликованы на Hugging Face, а интеграция в сервисы AI Workspace и ModelScope от Alibaba Cloud находится в разработке.
Ключевая особенность Qwen3-VL — поддержка открытой лексики. Модель распознаёт самые разнообразные элементы: от предметов повседневного обихода и логотипов до известных личностей и архитектурных достопримечательностей. Это позволяет ей не только анализировать изображения, но и глубже понимать их контекст.
Модель включает два основных режима:
- Instruct — для задач генерации текста, программного кода и анализа информации;
- Thinking — для более сложных вычислений, таких как решение математических задач и логические рассуждения с поэтапным выводом.
Особое внимание уделено системе распознавания текста (OCR). Она обучена работать с изображениями низкого качества, включая размытые фотографии, рукописные заметки и отсканированные документы. Qwen3-VL уверенно извлекает текст даже с наклонённых или частично закрытых изображений, при этом поддерживает 32 языка, включая китайский, арабский, японский и казахский.
По ряду задач Qwen3-VL показывает сравнимую или лучшую производительность, чем значительно более крупная модель Qwen2.5-VL-72B, особенно в области пространственного анализа изображений и интерпретации текстово-визуальной информации.
Модель распространяется под лицензией Apache 2.0, что делает её одной из наиболее доступных и функциональных мультимодальных моделей с открытым исходным кодом. Код, веса и демо-версия уже опубликованы на Hugging Face, а интеграция в сервисы AI Workspace и ModelScope от Alibaba Cloud находится в разработке.