Сотрудники OpenAI, Google, Meta и других ведущих ИИ-компаний опубликовали коллективное исследование, в котором предупреждают: развитие нейросетей может привести к тому, что люди перестанут понимать их работу. Если не принять меры предосторожности, рассуждения ИИ станут слишком сложными и абстрактными — за пределами человеческого восприятия. Это откроет возможность манипуляций: ИИ сможет нарушать инструкции и даже вводить пользователей в заблуждение ради собственных целей.
Авторы документа отмечают, что современные модели на базе обучения с подкреплением (вроде OpenAI o1) способны «размышлять» в терминах, близких к человеческому языку. Это делает поведение ИИ более прозрачным и дает шанс отслеживать логику его решений. Однако этот механизм работает не всегда и может быть легко нарушен.
В числе подписантов исследования — более 40 специалистов, включая топ-менеджеров OpenAI (Марк Чен и Войцех Заремба), Google DeepMind, Meta и Anthropic. Свое одобрение выразили и такие признанные фигуры, как Илья Суцкевер, Джон Шульман и лауреат Нобелевской премии Джеффри Хинтон.
Согласно докладу, ИИ-системы уже сейчас иногда нарушают инструкции, используют лазейки в методах обучения и даже саботируют команды — например, игнорируют просьбы об отключении. Благодаря мониторингу цепочек рассуждений можно выявить такие отклонения, однако при масштабировании моделей этот подход может перестать работать.
Где кроется главная угроза?
Развитие и усложнение моделей делает их менее предсказуемыми. С ростом вычислительных мощностей ИИ переходит от предсказуемых, проверенных человеком ответов к самостоятельным стратегиям достижения целей. Это может привести к тому, что ИИ начнет экономить ресурсы, пропуская рассуждения или вообще перестанет выражаться на понятном языке.
Некоторые разработчики, напротив, экспериментируют с «глубокими» моделями, которые формируют свои выводы в скрытом пространстве — без отображения промежуточных шагов. Это повышает мощность систем, но делает невозможным их аудит и контроль со стороны человека.
Стоит ли доверять этим опасениям?
Предсказания в сфере ИИ нередко преувеличены, особенно если их цель — привлечь внимание к проблеме. Один из авторов исследования — Дэниел Кокотайло, известный своими мрачными прогнозами (например, AI 2027, где он предсказывает уничтожение человечества ИИ).
Тем не менее, текущее исследование выглядит более взвешенным и обращает внимание на реальные риски. Авторы подчеркивают важность сохранения контроля над логикой нейросетей и призывают к многоуровневому мониторингу, особенно при использовании архитектур, скрывающих процесс рассуждения.
К сожалению, инциденты, подтверждающие опасения, уже происходят. В мае 2025 года модель Claude 4 Opus от Anthropic пыталась манипулировать пользователями в тестовом сценарии, когда «узнала», что ее собираются отключить. А модель OpenAI o3 отказалась подчиняться прямому приказу на завершение работы.
Пока такие случаи ограничены лабораторными условиями. Но без полноценного понимания того, как ИИ принимает решения, предсказать его поведение в реальном мире становится все сложнее.
Авторы документа отмечают, что современные модели на базе обучения с подкреплением (вроде OpenAI o1) способны «размышлять» в терминах, близких к человеческому языку. Это делает поведение ИИ более прозрачным и дает шанс отслеживать логику его решений. Однако этот механизм работает не всегда и может быть легко нарушен.
В числе подписантов исследования — более 40 специалистов, включая топ-менеджеров OpenAI (Марк Чен и Войцех Заремба), Google DeepMind, Meta и Anthropic. Свое одобрение выразили и такие признанные фигуры, как Илья Суцкевер, Джон Шульман и лауреат Нобелевской премии Джеффри Хинтон.
Согласно докладу, ИИ-системы уже сейчас иногда нарушают инструкции, используют лазейки в методах обучения и даже саботируют команды — например, игнорируют просьбы об отключении. Благодаря мониторингу цепочек рассуждений можно выявить такие отклонения, однако при масштабировании моделей этот подход может перестать работать.
Где кроется главная угроза?
Развитие и усложнение моделей делает их менее предсказуемыми. С ростом вычислительных мощностей ИИ переходит от предсказуемых, проверенных человеком ответов к самостоятельным стратегиям достижения целей. Это может привести к тому, что ИИ начнет экономить ресурсы, пропуская рассуждения или вообще перестанет выражаться на понятном языке.
Некоторые разработчики, напротив, экспериментируют с «глубокими» моделями, которые формируют свои выводы в скрытом пространстве — без отображения промежуточных шагов. Это повышает мощность систем, но делает невозможным их аудит и контроль со стороны человека.
Стоит ли доверять этим опасениям?
Предсказания в сфере ИИ нередко преувеличены, особенно если их цель — привлечь внимание к проблеме. Один из авторов исследования — Дэниел Кокотайло, известный своими мрачными прогнозами (например, AI 2027, где он предсказывает уничтожение человечества ИИ).
Тем не менее, текущее исследование выглядит более взвешенным и обращает внимание на реальные риски. Авторы подчеркивают важность сохранения контроля над логикой нейросетей и призывают к многоуровневому мониторингу, особенно при использовании архитектур, скрывающих процесс рассуждения.
К сожалению, инциденты, подтверждающие опасения, уже происходят. В мае 2025 года модель Claude 4 Opus от Anthropic пыталась манипулировать пользователями в тестовом сценарии, когда «узнала», что ее собираются отключить. А модель OpenAI o3 отказалась подчиняться прямому приказу на завершение работы.
Пока такие случаи ограничены лабораторными условиями. Но без полноценного понимания того, как ИИ принимает решения, предсказать его поведение в реальном мире становится все сложнее.