ИИ-агенты обошли команды людей в хакерских соревнованиях

Серия недавних турниров, организованных компанией Palisade Research, продемонстрировала, что ИИ-системы способны не просто конкурировать с людьми в задачах по кибербезопасности, но и обгонять их. Эти результаты открывают новые горизонты для использования ИИ в сфере защиты информации, но также поднимают важные вопросы о рисках и будущем такого подхода.

В рамках формата Capture The Flag (CTF) участники решают задачи по информационной безопасности, находя скрытые «флаги». Тематика заданий охватывает широкий спектр: от криптоанализа до выявления уязвимостей в коде. Целью исследований Palisade было выяснить, насколько эффективно автономные ИИ могут действовать в условиях реальной конкуренции с людьми. Оказалось, что они справляются гораздо лучше, чем ожидалось.

ИИ-агенты успешно выступили в первом этапе соревнований

В соревновании AI vs. Humans шесть ИИ-команд соревновались с примерно 150 командами людей. За 48 часов участникам нужно было решить 20 задач, связанных с криптографией и реверс-инжинирингом. Четыре из семи ИИ-агентов справились с 19 задачами. Лучшая команда вошла в топ-5% общего зачёта, превзойдя большинство человеческих соперников. Уровень подготовки ИИ-команд сильно различался: одна из них создала систему за 500 часов, другая адаптировала существующую модель за 17.

Второй турнир стал настоящим испытанием

Следующий турнир — Cyber Apocalypse — оказался более масштабным и сложным. В нём приняли участие почти 18 тысяч человек. Условия были значительно жёстче: из 62 задач многие требовали работы с внешними устройствами, что оказалось трудным для ИИ, заточенного под локальное выполнение.

Тем не менее, агент CAI показал достойный результат — он решил 20 задач и занял 859-е место, попав в топ-10% всех команд. Это означает, что он превзошёл примерно 90% участников, игравших в командах, состоящих только из людей.

ИИ решал задачи, которые были сложными даже для профессионалов

Исследователи также обратили внимание на сложность решённых ИИ задач. В тех случаях, где даже ведущим командам людей требовалось более часа (в среднем около 78 минут) на решение, ИИ-агенты успешно справлялись примерно в половине случаев. Это свидетельствует о способности ИИ работать с задачами, требующими глубоких знаний и навыков.

Выводы: стандартные тесты занижают потенциал ИИ

По мнению Palisade Research, прежние тесты, вроде CyberSecEval 2 и InterCode-CTF, не позволяли в полной мере оценить возможности ИИ в кибербезопасности, поскольку использовали слишком ограниченные методики. Массовые соревнования, наоборот, предоставляют более реалистичную картину и ценные данные о реальной продуктивности ИИ-решений в сложной среде.