Безопасность и алайнмент

Китай мог получить доступ к Mythos от Anthropic The Verge · 14.06.2026 Согласно новому отчету Semafor, Белый дом ввел экспортные ограничения на модель Mythos от Anthropic частично из-за опасений, что к ней мог получить доступ китайский кибергруппа. Если китайское правительство действительно имело доступ к Mythos 5 или Fable 5, это представляет серьезную угрозу национальной безопасности США. Как ИИ влияет на уязвимости в программном обеспечении Hacker News · 14.06.2026 Исследование Anthropic изучает влияние языковых моделей на обнаружение и эксплуатацию уязвимостей в программном обеспечении. Учёные проанализировали, как ИИ может помочь в поиске и устранении уязвимостей, а также в создании эксплойтов. GAS-Leak-LLM: генетический алгоритм для взлома LLM arXiv · 14.06.2026 Исследователи из Университета Торонто и MIT представили новый метод взлома языковых моделей (LLM) — GAS-Leak-LLM. Этот подход использует генетические алгоритмы для оптимизации суффиксов в запросах, что позволяет обходить механизмы защиты и получать нежелательные ответы от моделей. Авторы демонстрируют, что даже хорошо защищённые коммерческие системы уязвимы к таким атакам. ClawMoat: изоляция и безопасность для ИИ-агентов Hacker News · 14.06.2026 ClawMoat — это новый фреймворк для изоляции и безопасного исполнения ИИ-агентов, разработанный после выхода Fable 5. Он предоставляет механизмы containment (ограничения) для агентов, что позволяет запускать их в изолированной среде, предотвращая несанкционированный доступ к системам и данным. Anthropic тестирует Zero Trust для агентов и находит уязвимость в Bearer Token Hacker News · 14.06.2026 Anthropic провела тестирование Zero Trust для своих ИИ-агентов и обнаружила уязвимость в механизме аутентификации с использованием Bearer Token. Это важный шаг в развитии безопасности агентов, так как Bearer Token часто используется для доступа к API и другим сервисам. Shield Synthesis как инструмент проектирования безопасных ИИ-агентов arXiv · 11.06.2026 Исследователи из arXiv предлагают новый взгляд на shielded reinforcement learning (SRL), традиционно рассматриваемый как механизм обеспечения безопасности во время выполнения. Авторы утверждают, что автомато-теоретические методы, используемые в SRL, могут быть более полезны на этапе проектирования агентов. Google DeepMind исследует риски взаимодействия миллионов ИИ-агентов Artificial intelligence – MIT Technology Review · 11.06.2026 Google DeepMind активно финансирует исследования, посвящённые потенциальным угрозам, связанным с массовым взаимодействием ИИ-агентов в онлайн-среде. Руководитель направления безопасности и выравнивания AGI в компании, Рохин Шах, подчеркивает, что появление на рынке агентов, способных выполнять задачи без человеческого надзора и следующих инструкциям других агентов, может привести к непредсказуемым последствиям. DeepMind инвестирует 10 млн долларов в исследования безопасности мультиагентных систем Google DeepMind News · 10.06.2026 Google DeepMind, совместно с партнёрами, объявил о запуске программы финансирования на сумму $10 млн, направленной на исследования безопасности мультиагентных систем искусственного интеллекта. Этот шаг подчёркивает важность изучения взаимодействия между несколькими ИИ-агентами, что особенно актуально для разработки надёжных и безопасных агентных систем. Claude Fable: почему вы можете не узнать о блокировке запросов Simon Willison's Weblog · 09.06.2026 Jonathon Ready обратил внимание на важный момент из 319-страничного системного карточки Fable 5 и Mythos 5. В документе упоминается, что новые модели могут ускорять собственное развитие, и поэтому введены меры, ограничивающие эффективность Claude для определённых запросов. OpenAI запускает Lockdown Mode для защиты от утечек данных Simon Willison's Weblog · 05.06.2026 OpenAI представила новый режим Lockdown Mode, который направлен на предотвращение утечек данных в случае атак через инъекции в запросы. Этот режим ограничивает исходящие сетевые запросы, что помогает предотвратить передачу конфиденциальной информации. Lockdown Mode уже доступен для личных аккаунтов, включая бесплатные, Go, Plus и Pro, а также для бизнес-аккаунтов ChatGPT в режиме self-serve. Взлом ИИ-агента Meta: уязвимости и уроки для разработчиков Artificial intelligence – MIT Technology Review · 05.06.2026 Недавно стало известно о серьезной уязвимости в ИИ-агенте Meta, который использовался для поддержки клиентов Instagram. Злоумышленники смогли взломать несколько аккаунтов, включая неактивный аккаунт Белого дома времен Обамы, и использовать их для распространения пропаганды. Метод атаки был прост: хакеры запросили у агента привязку аккаунтов к своим email-адресам, и ИИ выполнил эту операцию без дополнительной проверки. NVIDIA представила Nemotron 3.5 Content Safety для безопасного ИИ Hugging Face - Blog · 04.06.2026 NVIDIA анонсировала Nemotron 3.5 Content Safety — решение для обеспечения безопасности контента в мультимодальных ИИ-системах. Это обновление позволяет компаниям настраивать фильтры контента под свои нужды, что особенно важно для разработчиков ИИ-агентов, работающих с пользовательскими данными. Как ограничивать ИИ-агентов для безопасной работы Lobsters · 01.06.2026 Разработчики ИИ-агентов сталкиваются с проблемой: как ограничить поведение моделей так, чтобы они не выходили за рамки допустимого, но при этом оставались полезными. В статье на Aeracode рассматриваются подходы к ограничению LLM (Large Language Models), которые могут быть полезны при создании ИИ-агентов. Weaviate Cloud расширил RBAC для управления доступом Weaviate Blog · 27.05.2026 Weaviate Cloud добавил новые роли Editor и Viewer в систему управления доступом на основе ролей (RBAC). Это позволяет более гибко настраивать права пользователей в консоли облачного сервиса. Cloudflare интегрировал API Claude Compliance The Cloudflare Blog · 21.05.2026 Cloudflare добавил поддержку API Claude Compliance в свою платформу CASB (Cloud Access Security Broker). Это позволяет командам по безопасности отслеживать активность Claude Enterprise прямо в панели управления Cloudflare. Vega: Zero-knowledge proofs для цифровой идентификации в эпоху ИИ Microsoft Research · 21.05.2026 Microsoft Research представила Vega — технологию, которая позволяет превращать полные учетные данные в единое доказательство, передавая только необходимую информацию и ничего лишнего. Это особенно актуально в контексте развития ИИ-агентов, где вопросы безопасности и аутентификации становятся критически важными. Исследование DeepMind о рисках манипуляции через ИИ Google DeepMind News · 25.03.2026 Google DeepMind опубликовал исследование, посвящённое рискам манипуляции людьми с помощью искусственного интеллекта. В работе рассматриваются различные сферы, включая финансы и здравоохранение, где ИИ может быть использован для вредоносных целей. Исследователи выделили ключевые механизмы манипуляции, такие как подталкивание к нежелательным решениям, создание ложных убеждений и эксплуатация когнитивных искажений. Как защитить корпоративные развёртывания Weaviate Weaviate Blog · 18.03.2026 Weaviate выпустила руководство по обеспечению безопасности корпоративных развёртываний своей векторной базы данных. В нём рассматриваются ключевые методы защиты, включая OIDC, RBAC и изоляцию мультитенантов. CoderForge: новый датасет для обучения агентов-программистов Together.ai · 24.02.2026 Компания Together.ai представила CoderForge — новый открытый датасет, предназначенный для обучения ИИ-агентов, способных работать с кодом. В его основе лежат данные из реальных проектов, включая задачи по рефакторингу, отладке и оптимизации кода. Как защитить Weaviate: API-ключи, OIDC и RBAC Weaviate Blog · 17.02.2026 Weaviate, векторная база данных для работы с ИИ, получила обновлённое руководство по безопасности. В нём подробно разобраны методы аутентификации и авторизации, включая использование API-ключей, OpenID Connect (OIDC) и роль-базированный контроль доступа (RBAC).