Итоги оценки Claude Opus 4.6 по Time Horizon 1.1

Недавно METR представила результаты тестирования модели Claude Opus 4.6 по бенчмарку Time Horizon 1.1, отражающему уровень сложности задач для ИИ-агентов. Новинка от Anthropic продемонстрировала, что на 50%-м временном горизонте ей требуется около 14,5 часов для выполнения задачи, что является значительным достижением, но недостаточно надежным для точного анализа: 95%-й доверительный интервал колебался от 6 до 98 часов. Это указывает на недостаток четкого разделения между различными моделями. Ранее рекорд принадлежал GPT-5.2 (high), которая справилась с задачей за 6 часов 34 минуты.

С обновлением набора задач в январе METR добавила больше тестов, однако модели развиваются быстрее, чем создаются новые испытания. С 2023 года наблюдается удвоение горизонта каждые 4 месяца. Примечательно, что график METR был охарактеризован как «самый неправильно понимаемый график в ИИ», поскольку 14,5 часов не означает непрерывную работу, а лишь предполагает время, необходимое эксперту. Текущий набор задач сосредоточен на программировании, ML и кибербезопасности, что не отражает реальных условий работы, поднимая вопросы о доверии к новым данным.