Безопасность и алайнмент
Китай мог получить доступ к Mythos от Anthropic
Согласно новому отчету Semafor, Белый дом ввел экспортные ограничения на модель Mythos от Anthropic частично из-за опасений, что к ней мог получить доступ китайский кибергруппа. Если китайское правительство действительно имело доступ к Mythos 5 или Fable 5, это представляет серьезную угрозу национальной безопасности США.
Как ИИ влияет на уязвимости в программном обеспечении
Исследование Anthropic изучает влияние языковых моделей на обнаружение и эксплуатацию уязвимостей в программном обеспечении. Учёные проанализировали, как ИИ может помочь в поиске и устранении уязвимостей, а также в создании эксплойтов.
GAS-Leak-LLM: генетический алгоритм для взлома LLM
Исследователи из Университета Торонто и MIT представили новый метод взлома языковых моделей (LLM) — GAS-Leak-LLM. Этот подход использует генетические алгоритмы для оптимизации суффиксов в запросах, что позволяет обходить механизмы защиты и получать нежелательные ответы от моделей. Авторы демонстрируют, что даже хорошо защищённые коммерческие системы уязвимы к таким атакам.
ClawMoat: изоляция и безопасность для ИИ-агентов
ClawMoat — это новый фреймворк для изоляции и безопасного исполнения ИИ-агентов, разработанный после выхода Fable 5. Он предоставляет механизмы containment (ограничения) для агентов, что позволяет запускать их в изолированной среде, предотвращая несанкционированный доступ к системам и данным.
Anthropic тестирует Zero Trust для агентов и находит уязвимость в Bearer Token
Anthropic провела тестирование Zero Trust для своих ИИ-агентов и обнаружила уязвимость в механизме аутентификации с использованием Bearer Token. Это важный шаг в развитии безопасности агентов, так как Bearer Token часто используется для доступа к API и другим сервисам.
Shield Synthesis как инструмент проектирования безопасных ИИ-агентов
Исследователи из arXiv предлагают новый взгляд на shielded reinforcement learning (SRL), традиционно рассматриваемый как механизм обеспечения безопасности во время выполнения. Авторы утверждают, что автомато-теоретические методы, используемые в SRL, могут быть более полезны на этапе проектирования агентов.
Google DeepMind исследует риски взаимодействия миллионов ИИ-агентов
Google DeepMind активно финансирует исследования, посвящённые потенциальным угрозам, связанным с массовым взаимодействием ИИ-агентов в онлайн-среде. Руководитель направления безопасности и выравнивания AGI в компании, Рохин Шах, подчеркивает, что появление на рынке агентов, способных выполнять задачи без человеческого надзора и следующих инструкциям других агентов, может привести к непредсказуемым последствиям.
DeepMind инвестирует 10 млн долларов в исследования безопасности мультиагентных систем
Google DeepMind, совместно с партнёрами, объявил о запуске программы финансирования на сумму $10 млн, направленной на исследования безопасности мультиагентных систем искусственного интеллекта. Этот шаг подчёркивает важность изучения взаимодействия между несколькими ИИ-агентами, что особенно актуально для разработки надёжных и безопасных агентных систем.
Claude Fable: почему вы можете не узнать о блокировке запросов
Jonathon Ready обратил внимание на важный момент из 319-страничного системного карточки Fable 5 и Mythos 5. В документе упоминается, что новые модели могут ускорять собственное развитие, и поэтому введены меры, ограничивающие эффективность Claude для определённых запросов.
OpenAI запускает Lockdown Mode для защиты от утечек данных
OpenAI представила новый режим Lockdown Mode, который направлен на предотвращение утечек данных в случае атак через инъекции в запросы. Этот режим ограничивает исходящие сетевые запросы, что помогает предотвратить передачу конфиденциальной информации. Lockdown Mode уже доступен для личных аккаунтов, включая бесплатные, Go, Plus и Pro, а также для бизнес-аккаунтов ChatGPT в режиме self-serve.
Взлом ИИ-агента Meta: уязвимости и уроки для разработчиков
Недавно стало известно о серьезной уязвимости в ИИ-агенте Meta, который использовался для поддержки клиентов Instagram. Злоумышленники смогли взломать несколько аккаунтов, включая неактивный аккаунт Белого дома времен Обамы, и использовать их для распространения пропаганды. Метод атаки был прост: хакеры запросили у агента привязку аккаунтов к своим email-адресам, и ИИ выполнил эту операцию без дополнительной проверки.
NVIDIA представила Nemotron 3.5 Content Safety для безопасного ИИ
NVIDIA анонсировала Nemotron 3.5 Content Safety — решение для обеспечения безопасности контента в мультимодальных ИИ-системах. Это обновление позволяет компаниям настраивать фильтры контента под свои нужды, что особенно важно для разработчиков ИИ-агентов, работающих с пользовательскими данными.
Как ограничивать ИИ-агентов для безопасной работы
Разработчики ИИ-агентов сталкиваются с проблемой: как ограничить поведение моделей так, чтобы они не выходили за рамки допустимого, но при этом оставались полезными. В статье на Aeracode рассматриваются подходы к ограничению LLM (Large Language Models), которые могут быть полезны при создании ИИ-агентов.
Weaviate Cloud расширил RBAC для управления доступом
Weaviate Cloud добавил новые роли Editor и Viewer в систему управления доступом на основе ролей (RBAC). Это позволяет более гибко настраивать права пользователей в консоли облачного сервиса.
Cloudflare интегрировал API Claude Compliance
Cloudflare добавил поддержку API Claude Compliance в свою платформу CASB (Cloud Access Security Broker). Это позволяет командам по безопасности отслеживать активность Claude Enterprise прямо в панели управления Cloudflare.
Vega: Zero-knowledge proofs для цифровой идентификации в эпоху ИИ
Microsoft Research представила Vega — технологию, которая позволяет превращать полные учетные данные в единое доказательство, передавая только необходимую информацию и ничего лишнего. Это особенно актуально в контексте развития ИИ-агентов, где вопросы безопасности и аутентификации становятся критически важными.
Исследование DeepMind о рисках манипуляции через ИИ
Google DeepMind опубликовал исследование, посвящённое рискам манипуляции людьми с помощью искусственного интеллекта. В работе рассматриваются различные сферы, включая финансы и здравоохранение, где ИИ может быть использован для вредоносных целей. Исследователи выделили ключевые механизмы манипуляции, такие как подталкивание к нежелательным решениям, создание ложных убеждений и эксплуатация когнитивных искажений.
Как защитить корпоративные развёртывания Weaviate
Weaviate выпустила руководство по обеспечению безопасности корпоративных развёртываний своей векторной базы данных. В нём рассматриваются ключевые методы защиты, включая OIDC, RBAC и изоляцию мультитенантов.
CoderForge: новый датасет для обучения агентов-программистов
Компания Together.ai представила CoderForge — новый открытый датасет, предназначенный для обучения ИИ-агентов, способных работать с кодом. В его основе лежат данные из реальных проектов, включая задачи по рефакторингу, отладке и оптимизации кода.
Как защитить Weaviate: API-ключи, OIDC и RBAC
Weaviate, векторная база данных для работы с ИИ, получила обновлённое руководство по безопасности. В нём подробно разобраны методы аутентификации и авторизации, включая использование API-ключей, OpenID Connect (OIDC) и роль-базированный контроль доступа (RBAC).