Google DeepMind опубликовала комплексный план по минимизации рисков, связанных с потенциально неконтролируемым поведением продвинутых ИИ-систем. Основное внимание в стратегии уделяется разработке механизмов «безопасного отключения» и внедрению многоуровневых систем мониторинга, которые должны предотвращать выход агентов за рамки заданных параметров. Разработчики делают ставку на создание автономных систем контроля, способных в режиме реального времени анализировать действия ИИ и блокировать операции, которые могут привести к нарушению протоколов безопасности.
В рамках инициативы компания планирует интегрировать инструменты для проверки логики принятия решений на каждом этапе выполнения агентных задач. Это предполагает использование методов формальной верификации, позволяющих математически доказать соответствие действий модели установленным правилам. Подобный подход направлен на решение проблемы «непрозрачности» сложных алгоритмов, когда поведение системы становится непредсказуемым в процессе самообучения или при выполнении многошаговых цепочек действий.
Помимо технических ограничений, стратегия включает создание независимых протоколов аудита, которые будут применяться ко всем новым моделям до их развертывания в реальных средах. Google DeepMind также намерена развивать методы «песочниц» для тестирования агентов в изолированных условиях, где их возможности взаимодействия с внешней инфраструктурой ограничены. Эти меры призваны обеспечить баланс между расширением функциональности ИИ-агентов и сохранением полного контроля над их влиянием на критически важные системы.