В Google DeepMind усиливают меры против «неуправляемого» ИИ

Исследователи DeepMind опубликовали третью версию стратегии Frontier Safety Framework (FSF) — программы по выявлению и снижению рисков, связанных с передовыми моделями искусственного интеллекта. Обновлённый документ учитывает не только экспертные оценки, но и практический опыт использования предыдущих поколений ИИ.

Ключевым нововведением FSF стала система Critical Capability Level (CCL) — инструмент для оценки моделей с потенциально опасными возможностями, включая манипуляции, систематическое влияние на убеждения пользователей и способность ускорять научные разработки до дестабилизирующего уровня.

Также расширена рамочная программа оценки рисков. Теперь она охватывает сценарии, в которых ИИ способен сопротивляться управлению со стороны оператора — вплоть до отказа от остановки или изменения поведения. Ранее исследования концентрировались на случаях, когда модели вводили пользователей в заблуждение; теперь добавлены новые протоколы для анализа и сдерживания таких угроз.

В рамках CCL DeepMind внедряет масштабные внутренние тесты и проводит оценку безопасности до вывода моделей за пределы лаборатории. Это позволяет снизить риски до приемлемого уровня. Определение CCL также уточнено: оно направлено на точное выявление угроз, требующих жёсткого контроля.

Компания подчёркивает, что рамочная программа будет и дальше развиваться — с учётом научных данных, экспертных отзывов и результатов практического применения.

Ранее глава Google DeepMind Демис Хассабис призвал индустрию ИИ не повторять ошибок, допущенных при запуске социальных сетей. По его словам, гонка за вовлечённостью привела к серьёзным последствиям для психического здоровья пользователей. Он считает, что ИИ — одна из самых трансформационных технологий в истории, и работать с ней необходимо предельно осторожно.