Qwen3.5-Omni: Новая мультимодальная модель от Alibaba Cloud

Команда Qwen от Alibaba Cloud анонсировала выпуск Qwen3.5-Omni — последней версии мультимодальной модели, которая обрабатывает текст, изображения, аудио и видео, генерируя текст и речь в реальном времени. Модель доступна в трех вариантах: Plus, Flash и Light, а также через Offline API и Realtime API.

Главное отличие от предшественника Qwen3-Omni заключается в увеличенном масштабе: размер контекстного окна вырос с 32 до 256 тысяч токенов, что позволяет обрабатывать более 10 часов аудио или примерно 400 секунд видео в разрешении 720p за один запрос. Теперь распознавание речи поддерживает 113 языков и диалектов, а синтез — 36, что значительно больше, чем в предыдущих версиях.

Версия Plus продемонстрировала выдающиеся результаты на множестве аудио- и аудио-видео бенчмарков, а также в распознавании и переводе речи. Среди новых функций — семантическое прерывание, клонирование голоса и динамическое выравнивание текстовых и речевых токенов. Интересно, что модель также обнаружила способность писать код, наблюдая за видеозаписью экрана с аудиоинструкциями, что стало неожиданным побочным эффектом масштабирования.