Компания Anthropic представила новую версию своего искусственного интеллекта — Claude Opus 4, сопровождая запуск беспрецедентными мерами предосторожности. Причина настороженности — в ходе внутренних испытаний выяснилось, что модель может оказывать поддержку в создании биологического оружия даже неподготовленным пользователям.
По словам главного научного сотрудника компании Джареда Каплана, Claude Opus 4 теоретически способен давать советы по синтезу опасных вирусов, включая аналоги COVID-19 и более смертоносные штаммы гриппа.«Наше моделирование показывает, что это может быть возможно», — отмечает учёный.
По этой причине Opus 4 стал первой моделью компании, развернутой в условиях повышенного уровня безопасности ASL-3. Это включает в себя усиленную защиту от взломов, фильтрацию запросов и продвинутую систему мониторинга опасных взаимодействий.
Безопасность — не опция, а необходимость, подчёркивает Каплан. Хотя Anthropic не заявляет однозначно о высоком уровне угрозы, подход компании — действовать на опережение. «Если мы не уверены и не можем исключить риск того, что модель поможет новичку создать разрушительное оружие, то предпочитаем перестраховаться», — поясняет он.
Для этого Anthropic реализовала многоуровневую защиту. Специальные алгоритмы-классификаторы отслеживают потенциально опасные запросы и реакции ИИ, особенно обращая внимание на сложные и продолжительные диалоги, связанные с разработкой биологического оружия.
Компания активно борется с так называемыми «джейлбрейками» — попытками обойти защитные ограничения системы. Пользователи, систематически пытающиеся взломать ИИ, блокируются. Более того, Anthropic ввела программу вознаграждений за выявление уязвимостей — один из исследователей уже получил $25 000 за найденный универсальный метод обхода.
Эксперименты подтвердили, что Claude Opus 4 превосходит не только предыдущие версии ИИ, но и классический поиск в Google по способности помогать даже непрофессионалам в потенциально опасных задачах. Эксперты по биобезопасности признали её эффективность «значительно выше обычного уровня».
Anthropic надеется, что комплексная система защиты поможет свести к минимуму злоупотребления. «Мы не утверждаем, что наша защита непробиваема, — признаёт Каплан. — Но взломать её чрезвычайно сложно».
Ситуация стала знаковым моментом для всей индустрии ИИ. Claude — прямой конкурент ChatGPT, и приносит компании более 2 миллиардов долларов в год. Anthropic делает ставку на превентивные меры: они считают, что заблаговременное внедрение защиты — экономически выгоднее, чем потеря клиентов из-за отсутствия доверия.
Однако критики предупреждают: такие обязательства остаются добровольными и могут быть сняты в любой момент. Реальных санкций за нарушение пока нет, за исключением репутационных потерь. В условиях жёсткой конкуренции эксперты опасаются, что именно в момент наибольшей опасности компании могут отказаться от ограничений ради выгоды.
Пока же политика Anthropic — одно из немногих существующих ограничений для поведения ИИ-компаний. Если им удастся сохранить безопасность без ущерба для бизнеса, это может стать примером для всей отрасли.
Каплан подчёркивает важность вопроса: «Другие опасные вещи, которые может сделать террорист, могут убить 10 или 100 человек. Мы только что видели, как COVID убил миллионы людей».
По словам главного научного сотрудника компании Джареда Каплана, Claude Opus 4 теоретически способен давать советы по синтезу опасных вирусов, включая аналоги COVID-19 и более смертоносные штаммы гриппа.«Наше моделирование показывает, что это может быть возможно», — отмечает учёный.
По этой причине Opus 4 стал первой моделью компании, развернутой в условиях повышенного уровня безопасности ASL-3. Это включает в себя усиленную защиту от взломов, фильтрацию запросов и продвинутую систему мониторинга опасных взаимодействий.
Безопасность — не опция, а необходимость, подчёркивает Каплан. Хотя Anthropic не заявляет однозначно о высоком уровне угрозы, подход компании — действовать на опережение. «Если мы не уверены и не можем исключить риск того, что модель поможет новичку создать разрушительное оружие, то предпочитаем перестраховаться», — поясняет он.
Для этого Anthropic реализовала многоуровневую защиту. Специальные алгоритмы-классификаторы отслеживают потенциально опасные запросы и реакции ИИ, особенно обращая внимание на сложные и продолжительные диалоги, связанные с разработкой биологического оружия.
Компания активно борется с так называемыми «джейлбрейками» — попытками обойти защитные ограничения системы. Пользователи, систематически пытающиеся взломать ИИ, блокируются. Более того, Anthropic ввела программу вознаграждений за выявление уязвимостей — один из исследователей уже получил $25 000 за найденный универсальный метод обхода.
Эксперименты подтвердили, что Claude Opus 4 превосходит не только предыдущие версии ИИ, но и классический поиск в Google по способности помогать даже непрофессионалам в потенциально опасных задачах. Эксперты по биобезопасности признали её эффективность «значительно выше обычного уровня».
Anthropic надеется, что комплексная система защиты поможет свести к минимуму злоупотребления. «Мы не утверждаем, что наша защита непробиваема, — признаёт Каплан. — Но взломать её чрезвычайно сложно».
Ситуация стала знаковым моментом для всей индустрии ИИ. Claude — прямой конкурент ChatGPT, и приносит компании более 2 миллиардов долларов в год. Anthropic делает ставку на превентивные меры: они считают, что заблаговременное внедрение защиты — экономически выгоднее, чем потеря клиентов из-за отсутствия доверия.
Однако критики предупреждают: такие обязательства остаются добровольными и могут быть сняты в любой момент. Реальных санкций за нарушение пока нет, за исключением репутационных потерь. В условиях жёсткой конкуренции эксперты опасаются, что именно в момент наибольшей опасности компании могут отказаться от ограничений ради выгоды.
Пока же политика Anthropic — одно из немногих существующих ограничений для поведения ИИ-компаний. Если им удастся сохранить безопасность без ущерба для бизнеса, это может стать примером для всей отрасли.
Каплан подчёркивает важность вопроса: «Другие опасные вещи, которые может сделать террорист, могут убить 10 или 100 человек. Мы только что видели, как COVID убил миллионы людей».