Сотрудники Microsoft анонсировали создание сканера, предназначенного для обнаружения «закладок» в языковых моделях с открытыми весами. Эти модели, доступные для загрузки и запуска на локальных устройствах, могут осуществлять стандартные задачи, но при определенных триггерах действуют по сценариям злоумышленников. Триггеры могут принимать форму фраз или специфических токенов, которые активируют нежелательное поведение модели. Исследования выявляют два главных типа рисков: первый — это внедрение вредоносного кода в файлы модели, и второй — «отравление» модели на этапе обучения, где закладка инкорпорируется в веса. Microsoft определила три характерные особенности, отличающие зараженные модели от нормальных. Сканер извлекает данные, выделяет подозрительные подстроки и оценивает их как потенциальные триггеры, обеспечивая низкий уровень ложных срабатываний. Однако метод требует доступа к открытым весам и может не обнаружить некоторые специализированные закладки. Сканер рекомендуется использовать как дополнение к другим мерам безопасности при развертывании моделей.
Опубликовано вНовости