Qwen3.5 9B и 4B: компактные модели Alibaba Cloud на Hugging Face

Команда Qwen от Alibaba Cloud выпустила пять новых компактных моделей серии Qwen3.5: 9B, 4B, 2B и 0.8B, все в dense-формате и с лицензией Apache 2.0. Это завершение линейки, которая стартовала с флагманской модели на 397B-A17B 16 февраля, затем были представлены средние модели (122B-A10B, 35B-A3B, 27B) 24 февраля, а теперь доступны компактные версии для локального использования. Модели можно найти на Hugging Face, ModelScope и Ollama, и для запуска 9B-версии достаточно одной команды: ollama run qwen3.5:9b.

Основной интерес вызывают бенчмарки 9B-модели. Она набрала 82.5 на MMLU-Pro, что превышает 80.8 у GPT-OSS-120B и 80.9 у Qwen3-30B-A3B. На GPQA Diamond разрыв еще более впечатляющий: 81.7 против 73.4. 9B-версия демонстрирует 66.1 на BFCL-V4 и 79.1 на TAU2-Bench, что делает её конкурентоспособной даже среди более крупных моделей.

Все модели построены на гибридной архитектуре Gated DeltaNet + Gated Attention, поддерживая контекст до 262 тысяч токенов. Каждая модель мультимодальна и поддерживает 201 язык. Даже 4B-модель показывает впечатляющие результаты: 79.1 на MMLU-Pro и 76.2 на GPQA Diamond. Модель 0.8B предназначена для встроенных устройств и edge-сценариев.

Вопрос-ответ

Какие модели выпустила команда Qwen и в чем их формат лицензирования?

Компания Qwen от Alibaba Cloud выпустила пять компактных моделей серии Qwen3.5: 9B, 4B, 2B и 0.8B. Все модели доступны в dense-формате и распространяются под лицензией Apache 2.0.

Где можно найти эти модели и как запустить 9B-версию?

Модели размещены на Hugging Face, ModelScope и Ollama. Для локального запуска 9B-версии достаточно одной команды: ollama run qwen3.5:9b.

Какие показатели эффективности демонстрирует 9B-модель и как она сравнивается с конкурентами?

9B-модель набирает 82.5 на MMLU-Pro, что выше 80.8 у GPT-OSS-120B и 80.9 у Qwen3-30B-A3B. На GPQA Diamond она достигает 81.7 против 73.4 у конкурентов. Кроме того, 9B показывает 66.1 на BFCL-V4 и 79.1 на TAU2-Bench, что делает её конкурентоспособной даже по сравнению с более крупными моделями.

Какие архитектурные особенности и языковые возможности поддерживают модели?

Все модели построены на гибридной архитектуре Gated DeltaNet + Gated Attention и поддерживают контекст до 262 тысяч токенов. Каждая модель мультимодальна и поддерживает 201 язык. Модель 4B также демонстрирует сильные результаты: 79.1 на MMLU-Pro и 76.2 на GPQA Diamond. Модель 0.8B ориентирована на встроенные устройства и edge-сценарии.