Проблемы модели Gemini 3 Flash в симуляции фудтрака

Redactor 06.03.2026

Создатели агентного бенчмарка FoodTruck Bench, в котором ИИ управляет фудтраком в Остине, обнаружили, что Gemini 3 Flash не смогла пройти симуляцию. В 5 из 7 попыток модель застревала в бесконечном цикле, не совершая действий. В то время как такие модели, как GPT-5 и Claude, успешно справлялись с задачей.

Первый день работы проходил без сбоев, но на этапе принятия решений о закупках ответ модели достигал 174 816 символов, включая 574 повторения фразы «Let’s go». При принудительном перезапуске Gemini 3 Flash отвечала корректно, но затем вновь входила в цикл, создавая заказы с повторяющимися ингредиентами.

Без режима «thinking» модель демонстрировала хорошие результаты: 15 дней работы без сбоев и выручка $8 703. Однако, когда ей давали возможность «подумать», она сталкивалась с параличом анализа. Это явление было единственным среди протестированных моделей, и Gemini 3 Flash была исключена из рейтинга, что указывает на ошибки в разработке от Google.

Redactor

Просмотреть все записи