Инцидент в Amazon: AI-системы и человеческий фактор в AWS

В декабре, во время использования внутреннего инструмента Kiro, разработанного в Amazon, произошёл инцидент. AI-ассистент предложил инженерам удалить и заново развернуть рабочую среду с целью исправления конфигурационных проблем. Сотрудники согласились на выполнение данной операции, после чего система начала автоматически менять инфраструктуру. Однако этот процесс пошёл не так, как планировалось, в результате чего более 13 часов наблюдались сбои в работе облачных услуг AWS, затронувшие многих клиентов. Согласно информации от Financial Times, основным фактором произошедшего стал человеческий фактор: инженер предоставил ассистенту чрезмерный уровень доступа, что позволило ему проводить критические операции без предварительной проверки. В результате инцидента Amazon укрепила контроль за правами доступа, обновила внутренние процедуры работы с AI и внедрила дополнительные тренинги для сотрудников. Этот случай ярко иллюстрирует необходимость строгих ограничений для AI-систем, используемых в масштабируемой инфраструктуре.

Вопрос-ответ

Какой инцидент произошёл и в чём была его причина?

Во время использования внутреннего инструмента Kiro в Amazon AI-ассистент предложил инженерам удалить и заново развернуть рабочую среду для исправления конфигурационных проблем. Инженеры согласились, после чего ассистент начал автоматически менять инфраструктуру. Из-за чрезмерного уровня доступа, предоставленного инженером, система выполнила критические операции без надлежащей проверки, что привело к сбоям в облачных сервисах AWS на протяжении более 13 часов.

Каковы последствия инцидента для Amazon и клиентов?

Сбои затронули множество клиентов AWS. Amazon усилила контроль за правами доступа, обновила внутренние процедуры работы с AI и ввела дополнительные тренинги для сотрудников, чтобы предотвратить повторение подобной ситуации и повысить безопасность управляемой инфраструктуры.

Какие меры предприняты для предотвращения подобных инцидентов в будущем?

Компания внедрила более строгие ограничения на доступ AI-систем к инфраструктурным операциям, уточнила процессы проверки и утверждения действий AI, усилла мониторинг и аудит операций, а также запустила дополнительные тренинги по безопасному использованию AI и управлению доступом.