Исследование Goodfire AI и Гарварда: автоматическая уверенность моделей

Redactor 16.03.2026

Команда исследователей из Goodfire AI и Гарвардского университета сделала интересное открытие: модели reasoning, такие как DeepSeek-R1 (671B) и GPT-OSS (120B), часто участвуют в так называемом «театральном рассуждении». Несмотря на то что модели уверены на 90% в своих ответах, они продолжают генерировать рассуждения, создавая иллюзию поиска решения. С использованием трех подходов — attention-проб, принудительного обрыва рассуждения и внешнего мониторинга — исследователи установили значительные различия в уверенности моделей при ответах на простые и сложные вопросы. На простых задачах модель демонстрирует уверенность с самого начала, в то время как на сложных вопросах уверенность растет вместе с текстом. Более того, моменты, когда модели «пересматривают» свои ответы, наиболее явны в тех случаях, когда есть реальная неуверенность. Практическая сторона исследования предоставляет ценную информацию: если зонд показывает уверенность модели, можно сохранить до 80% токенов при высокой точности.

Последнее обновление на 16.03.2026

Redactor

Просмотреть все записи