Искусственный интеллект деградирует за счёт переобучения на собственных синтетических данных

После запуска ChatGPT в ноябре 2022 года обсуждение искусственного интеллекта вышло за рамки технических вопросов и стало затрагивать фундаментальные аспекты данных. Аналогия с ядерными испытаниями после 1945 года, которые загрязнили окружающую среду радиацией и сделали редкой сталь с низким фоном, стала особенно уместной: генеративные модели начали «засорять» интернет синтетическим контентом. Это, по мнению исследователей, чревато феноменом под названием Model Autophagy Disorder (MAD) — когда ИИ всё чаще обучается на данных, созданных другим ИИ, что приводит к снижению точности, разнообразия и общей надёжности моделей.

Суть проблемы в том, что без доступа к исходным, «чистым» (человеческим) данным, ИИ со временем начинает терять способность к качественному рассуждению. Это влияет не только на эффективность технологий, но и на рыночную конкуренцию: у компаний, успевших собрать чистые датасеты до 2022 года, появляется устойчивое преимущество перед новыми игроками, которым будет всё труднее получить доступ к достоверной информации.

В 2023 году технический директор Cloudflare Джон Грэм-Камминг зарегистрировал домен lowbackgroundsteel[.]ai — символическую отсылку к поиску материалов с минимальным загрязнением, но теперь уже в цифровом контексте. Аналогично стали рассматриваться и старые архивы — такие как Arctic Code Vault, как возможные источники «неиспорченных» данных.

Академические исследователи, включая Мориса Чиодо и Рупрехта Подсзуна, подчёркивают, что проблема синтетических данных способна не только ухудшить качество ИИ, но и углубить рыночные монополии. Без доступа к «чистой» информации новым участникам будет почти невозможно развивать собственные модели на конкурентном уровне.

Среди предлагаемых решений: обязательная маркировка контента, сгенерированного ИИ; переход к федеративному обучению; и строго регулируемый доступ к аутентичным данным без их прямой передачи. Однако каждый из этих подходов несёт свои риски — от угрозы приватности до потенциальной централизации контроля в руках государств или крупных корпораций.

Хотя сам факт «коллапса моделей» ещё не подтверждён эмпирически, эксперты предупреждают: если он всё же произойдёт, последствия могут оказаться необратимыми. Загрязнённые данные нельзя «отфильтровать» постфактум, поэтому сейчас особенно важно сохранять так называемую эпистемическую гигиену — информационную чистоту, от которой зависит надёжность и устойчивость будущего искусственного интеллекта.