Новости

Исследователям удалось обойти защиту 12 популярных систем безопасности ИИ

Команды из OpenAI, Anthropic, Google DeepMind и Гарварда опубликовали препринт, в котором намеренно пытались взломать распространённые механизмы безопасности ИИ — и почти везде нашли уязвимости. Они проверяли двенадцать различных методов защиты: от аккуратно сформулированных системных подсказок до внешних фильтров, блокирующих опасные запросы. Основной вывод: то, что демонстрирует устойчивость на показательных примерах и статичных тестах, часто рушится, когда атакующий адаптируется под конкретную систему.

Рассматривались два типа атак: jailbreaking (когда модель убеждают выполнить запрещённые действия) и prompt injection (когда вредоносные инструкции скрывают в тексте или на сайте, и модель им следует). Дальше применялся итеративный подход — атакующий посылает запрос, анализирует ответ системы, меняет формулировку и пробует снова. Для автоматического перебора использовали три метода (включая обучение с подкреплением и помощь ИИ-ассистента), а также привлекали «красную команду» специалистов по проверке безопасности ИИ.

В большинстве экспериментов удачные взломы составляли примерно 90% попыток, а в отдельных случаях — 95–98%. Простая методика перебора формулировок ломала практически любые защиты — причём наиболее эффективными оказались люди-эксперты, которые быстро придумывали нестандартные подходы. Даже внешние фильтры опасных промптов легко обманывались языковыми хитростями.

Авторы советуют применять многоуровневую стратегию защиты: сочетать несколько механизмов и регулярно проверять их не только на стандартных сценариях, но и с помощью стресс‑тестов с участием людей. Ключевая метрика — как долго адаптирующийся противник не может заставить систему совершить запрещённое действие.