Google DeepMind представила новую дорожную карту контроля ИИ, которая переводит управление безопасностью моделей из теоретической плоскости в практическую. Разработчики предлагают оценивать риски на основе конкретных измеряемых возможностей системы, а не абстрактных прогнозов. Такой подход позволяет выстраивать уровни защиты, соответствующие текущему уровню автономности агента, ограничивая его доступ к критическим ресурсам по мере роста способностей.

Анализ более миллиона задач по написанию кода показал, что большинство инцидентов безопасности связано не со злонамеренными действиями ИИ, а с его чрезмерной активностью или ошибками в выполнении инструкций. В компании сравнивают такие сбои с поведением нерадивых сотрудников, имеющих доступ к офисным ключам. Это подчеркивает необходимость внедрения строгих протоколов доступа, которые будут автоматически блокировать потенциально опасные действия агентов в режиме реального времени.

В DeepMind подчеркивают, что окно возможностей для формирования глобальных стандартов безопасности ИИ стремительно закрывается. По мере усложнения агентных систем, способных самостоятельно планировать и выполнять многоступенчатые операции, потребность в унифицированных методах контроля становится критической. Новая стратегия призвана стать фундаментом для создания безопасной среды, где развитие технологий не опережает возможности по их сдерживанию.