ЭИ-диалоги под угрозой: как GPT-4.1 и Gemini 2.5 Pro "теряются" во многоходовых беседах

Согласно совместному исследованию Microsoft Research и Salesforce, более 200 000 диалогов с передовыми ИИ-моделями, такими как GPT-4.1, Gemini 2.5 Pro и другими, выявили серьезные проблемы в их работе. В ходе анализа стало понятно, что все модели склонны «теряться» в разговоре, особенно в многоходовых взаимодействиях. Это проявляется в виде постепенного «оглупления», галлюцинаций и неверных ответов.

Учёные отмечают, что хотя эти модели достигают 90% точности в коротких запросах, их эффективность резко падает до 65% во время длительных диалогов. Интересно, что во время общения ответы становятся длинее на 20-300%, что лишь усугубляет ситуацию. Это приводит к большему количеству ошибок, поскольку модели используют предыдущие неверные ответы в дальнейших репликах.

Далее, несмотря на наличие дополнительных «токенов мышления» у некоторых моделей, таких как o3 от OpenAI, их надежность все же снижена на 112%, что связано с их привычкой генерировать ответы на неполные запросы.

Хотя ИИ еще не достиг идеала в многохолдовых взаимодействиях, наблюдается быстрый сдвиг в восприятии таких технологий, особенно с появлением ИИ-инструментов вроде «ИИ-обзоров Google». Однако использование этих инструментов вместо традиционных поисковиков может быть рискованным, так как полученная информация может оказаться недостоверной. Microsoft ранее указывала на недостаток инженерных навыков у пользователей при работе с ИИ, вероятно, негативно влияя на качество взаимодействия.

Вопрос-ответ

Какие основные проблемы выявлены в работе передовых ИИ-моделей при длительных диалогах?

Исследование показывает, что модели склонны «теряться» в разговоре, что приводит к постепенному оглуплению, галлюцинациям и неверным ответам. Эффективность падает с 90% точности на коротких запросах до примерно 65% в длительных диалогах, а ответы становятся длиннее на 20–300%, что увеличивает риск использования ранее неверных ответов в последующих репликах.

Почему длинные диалоги ухудшают качество ответов и как это проявляется?

При многократных шагах и продолжительных взаимодействиях модели опираются на контекст прошлого, что усиливает накопление ошибок. Увеличение объема ответов усложняет отслеживание фактов и приводит к повторению ошибок, особенно в случае ошибок в предыдущих репликах, которые затем учитываются в новых ответах.

Как влияет наличие так называемых «токенов мышления» на надёжность моделей?

Хотя некоторые модели, например o3 от OpenAI, включают дополнительные токены мышления, это не повышает надёжность: их использование коррелирует с ухудшением надёжности на приблизительно 112% из-за склонности генерировать ответы на неполные запросы и совпадать с ошибками в процессе рассуждений.

Какие рекомендации существуют для пользователей и разработчиков в контексте рисков и повышения качества взаимодействия?

Рекомендуется использовать ИИ-инструменты осмотрительно, сочетая их с проверкой фактов и верификацией ответов. Важно внедрять методы контроля за контекстом и фактами, обучать пользователей инженерно работать с ИИ, а также развивать методы микро-верификации в диалогах и ограничивать зависимость от длинных ответов, чтобы уменьшить вероятность повторения ошибок.