ИИ, способный помочь в создании биооружия: Claude Opus 4 вызывает тревогу даже у разработчиков

Компания Anthropic представила новую версию своего искусственного интеллекта — Claude Opus 4, сопровождая запуск беспрецедентными мерами предосторожности. Причина настороженности — в ходе внутренних испытаний выяснилось, что модель может оказывать поддержку в создании биологического оружия даже неподготовленным пользователям.

По словам главного научного сотрудника компании Джареда Каплана, Claude Opus 4 теоретически способен давать советы по синтезу опасных вирусов, включая аналоги COVID-19 и более смертоносные штаммы гриппа.«Наше моделирование показывает, что это может быть возможно», — отмечает учёный.

По этой причине Opus 4 стал первой моделью компании, развернутой в условиях повышенного уровня безопасности ASL-3. Это включает в себя усиленную защиту от взломов, фильтрацию запросов и продвинутую систему мониторинга опасных взаимодействий.

Безопасность — не опция, а необходимость, подчёркивает Каплан. Хотя Anthropic не заявляет однозначно о высоком уровне угрозы, подход компании — действовать на опережение. «Если мы не уверены и не можем исключить риск того, что модель поможет новичку создать разрушительное оружие, то предпочитаем перестраховаться», — поясняет он.

Для этого Anthropic реализовала многоуровневую защиту. Специальные алгоритмы-классификаторы отслеживают потенциально опасные запросы и реакции ИИ, особенно обращая внимание на сложные и продолжительные диалоги, связанные с разработкой биологического оружия.

Компания активно борется с так называемыми «джейлбрейками» — попытками обойти защитные ограничения системы. Пользователи, систематически пытающиеся взломать ИИ, блокируются. Более того, Anthropic ввела программу вознаграждений за выявление уязвимостей — один из исследователей уже получил $25 000 за найденный универсальный метод обхода.

Эксперименты подтвердили, что Claude Opus 4 превосходит не только предыдущие версии ИИ, но и классический поиск в Google по способности помогать даже непрофессионалам в потенциально опасных задачах. Эксперты по биобезопасности признали её эффективность «значительно выше обычного уровня».

Anthropic надеется, что комплексная система защиты поможет свести к минимуму злоупотребления. «Мы не утверждаем, что наша защита непробиваема, — признаёт Каплан. — Но взломать её чрезвычайно сложно».

Ситуация стала знаковым моментом для всей индустрии ИИ. Claude — прямой конкурент ChatGPT, и приносит компании более 2 миллиардов долларов в год. Anthropic делает ставку на превентивные меры: они считают, что заблаговременное внедрение защиты — экономически выгоднее, чем потеря клиентов из-за отсутствия доверия.

Однако критики предупреждают: такие обязательства остаются добровольными и могут быть сняты в любой момент. Реальных санкций за нарушение пока нет, за исключением репутационных потерь. В условиях жёсткой конкуренции эксперты опасаются, что именно в момент наибольшей опасности компании могут отказаться от ограничений ради выгоды.

Пока же политика Anthropic — одно из немногих существующих ограничений для поведения ИИ-компаний. Если им удастся сохранить безопасность без ущерба для бизнеса, это может стать примером для всей отрасли.

Каплан подчёркивает важность вопроса: «Другие опасные вещи, которые может сделать террорист, могут убить 10 или 100 человек. Мы только что видели, как COVID убил миллионы людей».