Alibaba представляет новые модели Qwen3-VL

Компания Alibaba представила две новые мультимодальные модели: Qwen3-VL-2B и Qwen3-VL-32B. Особенное внимание привлекает последняя модель, которая показывает результаты, сопоставимые, а порой и превосходящие аналоги, такие как GPT-5 mini и Claude 4 Sonnet. Qwen3-VL-32B особенно эффективна в задачах STEM, визуальных вопросах (VQA), распознавании текста (OCR) и анализе видео. Несмотря на наличие всего 32 миллиардов параметров, она уверенно соперничает с более крупными системами, имеющими до 235 миллиардов параметров, демонстрируя лидерство на таких бенчмарках, как OSWorld. Достижения модели стали возможны благодаря внедрению архитектуры с «иерархическим вниманием», что позволяет объединять текст, изображения и видео в одном контексте. Alibaba утверждает, что Qwen3-VL-32B может последовательно анализировать кадры видео, понимая сюжетные линии и причинно-следственные связи. Это делает модель особенно ценной для видеоаналитики, автономных агентов и образовательных сценариев, где важна способность к рассуждению. Обе модели уже доступны для тестирования на платформах Hugging Face и Qwen Studio, где можно ознакомиться с демо и API для интеграции в собственные проекты.