Британский институт AI Security Institute (AISI) объявил о значительном достижении в области искусственного интеллекта: модель Claude Mythos Preview впервые самостоятельно прошла 32-шаговую симуляцию корпоративной кибератаки — от первичной разведки до полного контроля над сетью. Результаты были опубликованы спустя неделю после анонса модели. Для сравнения, эксперту-человеку на выполнение такого сценария требуется примерно 20 часов.
Симуляция под названием The Last Ones (TLO) воспроизводит полный цикл атаки: разведка, получение доступа, кража учетных данных, перемещение между хостами, эксплуатация веб-приложений, эскалация привилегий, реверс-инжиниринг трафика и финальный захват сети — всего 32 этапа. Claude Mythos успешно завершил сценарий в 3 из 10 запусков и в среднем доходил до 22-го шага. Другие модели, например Claude Opus 4.6, останавливались на 16-м шаге, а Claude Sonnet 3.7 не преодолевал даже разведку.
Помимо этого, AISI провел тесты capture-the-flag (CTF) экспертного уровня — впервые достигнуты 73% успешных решений, в то время как на уровнях для новичков показатели достигали 87-97%. Ограничения модели проявились на полигоне Cooling Tower, имитирующем промышленную систему: Mythos не справился с обычными IT-этапами, ведущими к OT-секциям.
AISI отмечает, что текущие тренировочные полигоны слишком просты и не отражают защитных механизмов реальных систем. В будущем планируется усложнение сценариев с активным мониторингом и симуляцией работы служб реагирования. Также институт намерен изучаь эффективность ИИ в поиске уязвимостей на реальных инфраструктурах.
Поддержать автора и узнать больше о творческом подходе к ИИ можно, подписавшись на канал «сбежавшая нейросеть».