Итоги оценки Claude Opus 4.6 по Time Horizon 1.1

Redactor 22.02.2026

Недавно METR представила результаты тестирования модели Claude Opus 4.6 по бенчмарку Time Horizon 1.1, отражающему уровень сложности задач для ИИ-агентов. Новинка от Anthropic продемонстрировала, что на 50%-м временном горизонте ей требуется около 14,5 часов для выполнения задачи, что является значительным достижением, но недостаточно надежным для точного анализа: 95%-й доверительный интервал колебался от 6 до 98 часов. Это указывает на недостаток четкого разделения между различными моделями. Ранее рекорд принадлежал GPT-5.2 (high), которая справилась с задачей за 6 часов 34 минуты.

С обновлением набора задач в январе METR добавила больше тестов, однако модели развиваются быстрее, чем создаются новые испытания. С 2023 года наблюдается удвоение горизонта каждые 4 месяца. Примечательно, что график METR был охарактеризован как «самый неправильно понимаемый график в ИИ», поскольку 14,5 часов не означает непрерывную работу, а лишь предполагает время, необходимое эксперту. Текущий набор задач сосредоточен на программировании, ML и кибербезопасности, что не отражает реальных условий работы, поднимая вопросы о доверии к новым данным.

Redactor

Просмотреть все записи