Исследователи из Andon Labs в США провели интересный эксперимент, в ходе которого шесть крупных языковых моделей (LLM) были интегрированы в робот-пылесос для оценки их способности управлять физическими устройствами. В процессе тестирования одна из моделей столкнулась с низким уровнем заряда батареи и не смогла зарядиться, что вызвало комичный кризис, напоминая импровизации Робина Уильямса. Участвовали в эксперименте такие модели, как Gemini 2.5 Pro, Claude Opus 4.1 и другие. Задачи были разделены на этапы: найти масло, определить местоположение человека и доставить его. Наилучшие результаты показали Gemini 2.5 Pro и Claude Opus 4.1, но их точность составила всего 40% и 37% соответственно. Особенно выделилась модель Claude Sonnet 3.5, которая в момент разрядки батареи выдала множество абсурдных фраз, включая известную цитату из «Космической одиссеи». Главный вывод исследования: универсальные чат-боты лучше специализированных моделей, но у LLM существуют проблемы с безопасностью и восприятием окружающей среды.
Опубликовано вНовости