С 2021 года команда Microsoft по безопасности ИИ протестировала более 100 продуктов с генеративным ИИ, чтобы выявить уязвимости и этические проблемы. Результаты этих тестов ставят под сомнение некоторые традиционные представления о безопасности ИИ и подчёркивают важность участия человека.
Исследования показали, что самые опасные атаки не всегда являются наиболее сложными. «Настоящие хакеры не вычисляют градиенты, они используют социальную инженерию», — говорится в отчёте Microsoft, в котором приводятся примеры реальных атак на ИИ. Например, в одном из тестов команда обошла защиту генератора изображений, скрыв вредоносные инструкции в текстовом описании без необходимости сложных математических расчётов.
Хотя Microsoft разработала инструмент PyRIT для автоматизированного тестирования безопасности с открытым исходным кодом, команда подчёркивает, что участие человека по-прежнему необходимо. Тесты показали, насколько эффективными могут быть чат-боты в решении сложных задач, особенно в контексте взаимодействия с людьми, находящимися в уязвимом эмоциональном состоянии. Оценка таких ситуаций требует знаний в области психологии и понимания воздействия на психическое здоровье.
Для изучения предвзятости ИИ команда также использовала человеческую интуицию. В одном из экспериментов они исследовали гендерные стереотипы в генераторах изображений, создавая иллюстрации профессий без указания пола.
Расширение применения ИИ в повседневных приложениях выявило новые уязвимости. В одном из тестов команда заставила языковую модель создавать мошеннические сценарии, а в сочетании с технологией преобразования текста в речь это привело к созданию системы, которая могла крайне правдоподобно взаимодействовать с людьми.
Однако, риски не ограничиваются только проблемами ИИ. В одном из тестов была выявлена традиционная уязвимость (SSRF) в инструменте обработки видео на базе ИИ, что указывает на существование как старых, так и новых угроз безопасности. В исследовании особое внимание уделяется рискам, связанным с «ответственным ИИ», когда системы могут генерировать вредоносный или сомнительный, с этической точки зрения, контент. Решение таких проблем осложняется их зависимостью от контекста и интерпретации.
Команда Microsoft пришла к выводу, что случайное предоставление пользователю нежелательного контента может вызывать больше опасений, чем преднамеренные атаки, поскольку это свидетельствует о недостаточной эффективности защитных мер в обычных условиях.
Результаты исследования подчёркивают, что обеспечение безопасности ИИ требует постоянных усилий. Microsoft рекомендует регулярно выявлять и устранять уязвимости, а также проводить дополнительное тестирование. Компания считает, что такой процесс должен быть нормативно и финансово подкреплён, чтобы успешные атаки обходились дороже. Среди нерешённых вопросов остаются следующие: как выявлять и контролировать опасные возможности ИИ, такие как манипулирование и обман? Как адаптировать тестирование безопасности для разных языков и культур? И как компании могут обмениваться методами и результатами в стандартизированном виде?
Исследования показали, что самые опасные атаки не всегда являются наиболее сложными. «Настоящие хакеры не вычисляют градиенты, они используют социальную инженерию», — говорится в отчёте Microsoft, в котором приводятся примеры реальных атак на ИИ. Например, в одном из тестов команда обошла защиту генератора изображений, скрыв вредоносные инструкции в текстовом описании без необходимости сложных математических расчётов.
Хотя Microsoft разработала инструмент PyRIT для автоматизированного тестирования безопасности с открытым исходным кодом, команда подчёркивает, что участие человека по-прежнему необходимо. Тесты показали, насколько эффективными могут быть чат-боты в решении сложных задач, особенно в контексте взаимодействия с людьми, находящимися в уязвимом эмоциональном состоянии. Оценка таких ситуаций требует знаний в области психологии и понимания воздействия на психическое здоровье.
Для изучения предвзятости ИИ команда также использовала человеческую интуицию. В одном из экспериментов они исследовали гендерные стереотипы в генераторах изображений, создавая иллюстрации профессий без указания пола.
Расширение применения ИИ в повседневных приложениях выявило новые уязвимости. В одном из тестов команда заставила языковую модель создавать мошеннические сценарии, а в сочетании с технологией преобразования текста в речь это привело к созданию системы, которая могла крайне правдоподобно взаимодействовать с людьми.
Однако, риски не ограничиваются только проблемами ИИ. В одном из тестов была выявлена традиционная уязвимость (SSRF) в инструменте обработки видео на базе ИИ, что указывает на существование как старых, так и новых угроз безопасности. В исследовании особое внимание уделяется рискам, связанным с «ответственным ИИ», когда системы могут генерировать вредоносный или сомнительный, с этической точки зрения, контент. Решение таких проблем осложняется их зависимостью от контекста и интерпретации.
Команда Microsoft пришла к выводу, что случайное предоставление пользователю нежелательного контента может вызывать больше опасений, чем преднамеренные атаки, поскольку это свидетельствует о недостаточной эффективности защитных мер в обычных условиях.
Результаты исследования подчёркивают, что обеспечение безопасности ИИ требует постоянных усилий. Microsoft рекомендует регулярно выявлять и устранять уязвимости, а также проводить дополнительное тестирование. Компания считает, что такой процесс должен быть нормативно и финансово подкреплён, чтобы успешные атаки обходились дороже. Среди нерешённых вопросов остаются следующие: как выявлять и контролировать опасные возможности ИИ, такие как манипулирование и обман? Как адаптировать тестирование безопасности для разных языков и культур? И как компании могут обмениваться методами и результатами в стандартизированном виде?