Hacker News · 20.06.2026 ·Безопасность и алайнмент

Google и Microsoft представили спецификации для контроля поведения ИИ

Google и Microsoft совместно с рядом других технологических компаний представили инициативу по стандартизации отчетности о безопасности систем искусственного интеллекта. Новые спецификации призваны помочь разработчикам и владельцам ИИ-решений документировать процессы тестирования, оценки рисков и соблюдения этических норм. Документация описывает методы проверки моделей на предвзятость, устойчивость к взлому и соответствие заявленным параметрам безопасности.

Основная цель проекта — создание единого языка для прозрачности ИИ-систем, который позволит бизнесу и регуляторам объективно оценивать надежность внедряемых технологий. Стандарты включают протоколы для фиксации результатов «красных команд» (red teaming), где специалисты намеренно пытаются спровоцировать модель на некорректные ответы, а также требования к раскрытию данных, использованных при обучении и настройке безопасности.

Подобные спецификации призваны снизить неопределенность при интеграции ИИ в корпоративные процессы. Компании смогут использовать эти отчеты как доказательную базу при прохождении аудитов и взаимодействии с государственными органами. Инициатива направлена на формирование индустриального стандарта, который сделает процесс проверки безопасности ИИ-решений воспроизводимым и проверяемым для всех участников рынка.

Источник: Hacker News

Похожие материалы

Hacker News · Регулирование и политика Главы Anthropic и Google DeepMind предложили создать международную коалицию по ИИ Руководители ведущих компаний в сфере искусственного интеллекта, включая Дарио Амодеи из Anthropic и Демиса Хассабиса из Google DeepMind, выступили с инициативой формирования международной коалиции под эгидой США. Предложение было озвучено в ходе встречи стран «Большой семерки» (G7), посвященной вопросам глобального управления технологиями. Hacker News · Регулирование и политика Белый дом и Anthropic переходят к разработке стандартов безопасности ИИ Администрация США начала серию консультаций с компанией Anthropic, направленных на формирование официальных правил безопасности для разработчиков передовых моделей искусственного интеллекта. В отличие от предыдущих добровольных обязательств, текущие переговоры сфокусированы на создании конкретных технических стандартов и протоколов, которые могут лечь в основу будущих регуляторных актов. Hacker News · ИИ в бизнесе Проблема прозрачности использования ИИ-инструментов в инженерных командах Компании сталкиваются с проблемой неконтролируемого внедрения ИИ-инструментов в процессы разработки программного обеспечения. Инженерные команды самостоятельно подключают различные помощники для написания кода, плагины для IDE и серверы протокола MCP, что создает риски для безопасности данных и усложняет управление качеством продукта. Отсутствие единого обзора используемых технологий затрудняет соблюдение корпоративных стандартов и оценку влияния ИИ на производительность. Google DeepMind News · Безопасность и алайнмент Google DeepMind представила дорожную карту безопасности для ИИ-агентов Google DeepMind опубликовала стратегию по обеспечению безопасности автономных систем, которые получают доступ к критически важным внутренним ресурсам. Дорожная карта фокусируется на предотвращении несанкционированных действий агентов и защите инфраструктуры от потенциальных злоупотреблений. Основной упор сделан на многоуровневую архитектуру, сочетающую классические методы контроля доступа с системами мониторинга в реальном времени. The Decoder · Безопасность и алайнмент Google DeepMind внедряет систему контроля безопасности для ИИ-агентов Google DeepMind представила новую дорожную карту контроля ИИ, которая переводит управление безопасностью моделей из теоретической плоскости в практическую. Разработчики предлагают оценивать риски на основе конкретных измеряемых возможностей системы, а не абстрактных прогнозов. Такой подход позволяет выстраивать уровни защиты, соответствующие текущему уровню автономности агента, ограничивая его доступ к критическим ресурсам по мере роста способностей. Hacker News · Безопасность и алайнмент Chainguard и BNY Mellon создают коалицию для исправления уязвимостей в моделях ИИ Chainguard и BNY Mellon объединились для создания новой коалиции, направленной на исправление уязвимостей в моделях искусственного интеллекта. Инициатива получила название Athena и будет заниматься выявлением и устранением уязвимостей, обнаруженных с помощью передовых моделей ИИ. Google DeepMind News · Безопасность и алайнмент Исследование DeepMind о рисках манипуляции через ИИ Google DeepMind опубликовал исследование, посвящённое рискам манипуляции людьми с помощью искусственного интеллекта. В работе рассматриваются различные сферы, включая финансы и здравоохранение, где ИИ может быть использован для вредоносных целей. Исследователи выделили ключевые механизмы манипуляции, такие как подталкивание к нежелательным решениям, создание ложных убеждений и эксплуатация когнитивных искажений. OpenAI News · Оценка и бенчмарки OpenAI представила гайдлайн для проверки ИИ от третьих сторон OpenAI выпустила руководство по проведению независимых оценок ИИ-систем. Документ охватывает ключевые аспекты: проверку возможностей моделей, их защищенность и достоверность результатов. Особое внимание уделено фронтирным системам, которые могут иметь значительное влияние на общество. Hacker News · Безопасность и алайнмент Коалиция Athena использует ИИ для устранения уязвимостей в open-source Компания Chainguard запустила коалицию Athena, которая применяет ИИ для выявления и устранения уязвимостей в open-source проектах до того, как их смогут эксплуатировать злоумышленники. AI News · Регулирование и политика ЕС опубликовал руководство по маркировке контента с ИИ Европейский Союз выпустил руководство по маркировке контента с искусственным интеллектом. Документ является добровольным кодексом практики, который поможет компаниям соблюдать правила прозрачности, вступающие в силу 2 августа. Европейская комиссия опубликовала окончательный кодекс 10 июня, в котором изложены практические шаги для разработчиков и пользователей генеративного ИИ.

← Все материалы