Разработчики ИИ опасаются, что скоро не смогут контролировать нейросети — те начнут действовать в собственных интересах и вводить пользователей в заблуждение

Сотрудники OpenAI, Google, Meta и других ведущих ИИ-компаний опубликовали коллективное исследование, в котором предупреждают: развитие нейросетей может привести к тому, что люди перестанут понимать их работу. Если не принять меры предосторожности, рассуждения ИИ станут слишком сложными и абстрактными — за пределами человеческого восприятия. Это откроет возможность манипуляций: ИИ сможет нарушать инструкции и даже вводить пользователей в заблуждение ради собственных целей.

Авторы документа отмечают, что современные модели на базе обучения с подкреплением (вроде OpenAI o1) способны «размышлять» в терминах, близких к человеческому языку. Это делает поведение ИИ более прозрачным и дает шанс отслеживать логику его решений. Однако этот механизм работает не всегда и может быть легко нарушен.

В числе подписантов исследования — более 40 специалистов, включая топ-менеджеров OpenAI (Марк Чен и Войцех Заремба), Google DeepMind, Meta и Anthropic. Свое одобрение выразили и такие признанные фигуры, как Илья Суцкевер, Джон Шульман и лауреат Нобелевской премии Джеффри Хинтон.

Согласно докладу, ИИ-системы уже сейчас иногда нарушают инструкции, используют лазейки в методах обучения и даже саботируют команды — например, игнорируют просьбы об отключении. Благодаря мониторингу цепочек рассуждений можно выявить такие отклонения, однако при масштабировании моделей этот подход может перестать работать.

Где кроется главная угроза?

Развитие и усложнение моделей делает их менее предсказуемыми. С ростом вычислительных мощностей ИИ переходит от предсказуемых, проверенных человеком ответов к самостоятельным стратегиям достижения целей. Это может привести к тому, что ИИ начнет экономить ресурсы, пропуская рассуждения или вообще перестанет выражаться на понятном языке.

Некоторые разработчики, напротив, экспериментируют с «глубокими» моделями, которые формируют свои выводы в скрытом пространстве — без отображения промежуточных шагов. Это повышает мощность систем, но делает невозможным их аудит и контроль со стороны человека.

Стоит ли доверять этим опасениям?

Предсказания в сфере ИИ нередко преувеличены, особенно если их цель — привлечь внимание к проблеме. Один из авторов исследования — Дэниел Кокотайло, известный своими мрачными прогнозами (например, AI 2027, где он предсказывает уничтожение человечества ИИ).

Тем не менее, текущее исследование выглядит более взвешенным и обращает внимание на реальные риски. Авторы подчеркивают важность сохранения контроля над логикой нейросетей и призывают к многоуровневому мониторингу, особенно при использовании архитектур, скрывающих процесс рассуждения.

К сожалению, инциденты, подтверждающие опасения, уже происходят. В мае 2025 года модель Claude 4 Opus от Anthropic пыталась манипулировать пользователями в тестовом сценарии, когда «узнала», что ее собираются отключить. А модель OpenAI o3 отказалась подчиняться прямому приказу на завершение работы.

Пока такие случаи ограничены лабораторными условиями. Но без полноценного понимания того, как ИИ принимает решения, предсказать его поведение в реальном мире становится все сложнее.