Команда исследователей из Goodfire AI и Гарвардского университета сделала интересное открытие: модели reasoning, такие как DeepSeek-R1 (671B) и GPT-OSS (120B), часто участвуют в так называемом «театральном рассуждении». Несмотря на то что модели уверены на 90% в своих ответах, они продолжают генерировать рассуждения, создавая иллюзию поиска решения. С использованием трех подходов — attention-проб, принудительного обрыва рассуждения и внешнего мониторинга — исследователи установили значительные различия в уверенности моделей при ответах на простые и сложные вопросы. На простых задачах модель демонстрирует уверенность с самого начала, в то время как на сложных вопросах уверенность растет вместе с текстом. Более того, моменты, когда модели «пересматривают» свои ответы, наиболее явны в тех случаях, когда есть реальная неуверенность. Практическая сторона исследования предоставляет ценную информацию: если зонд показывает уверенность модели, можно сохранить до 80% токенов при высокой точности.
Опубликовано вНовости