Данная статья не является руководством по взлому, а представляет собой системный анализ архитектурных уязвимостей LLM, делающих промпт-инъекции актуальной проблемой. Мы рассмотрим механизмы Attention, токенизации и RLHF, чтобы понять, почему традиционные методы защиты не работают. За три года с момента первой промпт-инъекции было потрачено много ресурсов на защиту моделей, но на днях школьник смог обойти защиту модели, описав инъекцию в нестандартной кодировке. Это поднимает вопрос об архитектуре трансформеров, где данные и инструкции не разделяются. Дальнейшие атаки используют проблемы с контекстным окном, которое ограничивает память модели, и недостатки токенизации, позволяя злоумышленникам обойти фильтры. Мы также исследуем, как RLHF создает уязвимости, и обсуждаем, что необходимо для улучшения безопасности LLM.
Опубликовано вНовости