Модель, разработанная компанией Anthropic, показала выдающийся результат, набрав 68,8% на бенчмарке ARC-AGI-2, тесте, оценивающем абстрактное мышление. Напомним, что год назад все ИИ-модели не смогли даже набрать баллы, а средний результат среди 400 человек составил 60%. Стоимость тестирования составила $3,64 за задачу. Результаты были подтверждены командой ARC Prize на полуприватном наборе задач. ARC-AGI-2, созданный Франсуа Шолле, имеет целью проверить способность моделей обобщать информацию через визуальные головоломки. Модель Opus 4.6 была протестирована с разными уровнями усилий, показав диапазон от 63% до 68,8% в зависимости от бюджета. Несмотря на достижения, грант в $700 тысяч за 85% остаётся невыигранным, и команда ARC Prize ожидает, что 2025 станет «годом циклов уточнения». В 2026 году планируется запуск ARC-AGI-3 с новыми интерактивными задачами.
Опубликовано вНовости