Luma AI презентовала Uni-1 – первую модель, которая сочетает в себе генерацию изображений и их восприятие в одной архитектуре. В отличие от традиционных диффузионных моделей, таких как GPT Image 1.5, Uni-1 основывается на авторегрессионном трансформере, обеспечивающем создание контента пошагово. Обработка текста и изображений происходит в едином потоке, что позволяет достичь более высокой точности в выполнении запросов.
По заявлению разработчиков, Uni-1 может анализировать запросы до и во время генерации, разбивая сложные инструкции и продумывая композицию. Например, система способна объединить несколько фотографий в новую творческую работу. Модель также позволяет дорабатывать изображения в процессе диалога, сохраняя контекст прошлых запросов, и поддерживает более 76 художественных стилей.
В демонстрации Uni-1 создала последовательность изображений, показывающих эволюцию пианиста от детства до старости. По данным Luma, модель превзошла Nano Banana 2 и GPT Image 1.5 в тесте RISEBench, демонстрируя высокий уровень визуального понимания, аналогичный Gemini 3 Pro от Google. Uni-1 также поддерживает различные языки.