Безопасность и алайнмент
Chainguard и BNY Mellon создают коалицию для исправления уязвимостей в моделях ИИ
Chainguard и BNY Mellon объединились для создания новой коалиции, направленной на исправление уязвимостей в моделях искусственного интеллекта. Инициатива получила название Athena и будет заниматься выявлением и устранением уязвимостей, обнаруженных с помощью передовых моделей ИИ.
ClimateSOS представила хартию для безопасного использования ИИ
Климатическая организация ClimateSOS выпустила Foundational Charter, документ, который устанавливает принципы безопасного использования ИИ в проектах, связанных с климатом. Хартия включает рекомендации по минимизации рисков, связанных с использованием ИИ, и обеспечивает прозрачность в разработке и применении технологий.
Mistral AI повторяет дезинформацию в половине случаев
Исследование NewsGuard показало, что чат-бот Mistral AI повторяет ложную информацию в 50% случаев, когда его запрашивают о государственной пропаганде. В частности, речь идёт о дезинформации, связанной с войной в Украине и Иране.
Информационный контроль для автономных агентов
Исследователи из Microsoft представили подход к управлению потоками информации в ИИ-агентах. Новый метод позволяет контролировать доступ к данным и операции, что критично для безопасности автономных систем.
Исследование: налог на проверку в ИИ-агентах
Учёные из Стэнфорда и MIT провели исследование, посвящённое компромиссу между безопасностью и эффективностью в ИИ-агентах, использующих инструменты. Они ввели понятие «налог на проверку» — дополнительные затраты на обеспечение безопасности, которые снижают общую производительность агентов.
OpenACA — сканер безопасности для стеков ИИ-агентов
Разработчики представили OpenACA — инструмент для сканирования безопасности стеков ИИ-агентов. Платформа проверяет MCP-серверы, навыки и плагины на уязвимости, которые могут быть использованы злоумышленниками.
Сравнение моделей ИИ по способности к исследованию безопасности
Недавно исследователи из ZeroQuarry провели сравнительный анализ различных языковых моделей (LLM) на предмет их способности выполнять задачи в области безопасности. В исследовании участвовали модели от OpenAI, Mistral, Anthropic и других, которые тестировались на различных сценариях, связанных с выявлением уязвимостей, анализом кода и генерацией рекомендаций по защите.
Как гибкость энергосетей ускоряет запуск дата-центров
Современные дата-центры требуют огромных объемов энергии, и их запуск часто сталкивается с проблемами инфраструктуры. В статье Technology Review рассматривается, как гибкость энергосетей может решить эту проблему. Например, во время массового включения электрических чайников в Великобритании во время футбольного матча, энергосистема смогла адаптироваться благодаря гибким решениям.
ИИ-агенты как основа адаптивных компьютерных червей
Исследователи из Cleverhans Lab представили концепцию адаптивных компьютерных червей, которые используют ИИ-агентов для эволюции и распространения. В отличие от традиционных червей, новые версии могут анализировать среду, адаптироваться к защите и выбирать оптимальные пути распространения. Это возможно благодаря интеграции ИИ-агентов, способных принимать решения на основе контекста и обучаться в процессе эксплуатации.
Уязвимости в цепочках поставок ИИ-моделей
Исследователи обнаружили новые векторы атак на цепочки поставок ИИ-моделей, которые могут привести к серьезным уязвимостям в системах, использующих эти модели. В статье на Substack подробно рассматриваются случаи, когда злоумышленники могут внедрять вредоносный код в модели, которые затем используются в различных ИИ-агентах и сервисах.
Tamper-evident audit trail для ИИ-агентов
Constellation Labs представили Gate OC Audit — инструмент для создания неизменяемых логов активности ИИ-агентов. Это решение позволяет фиксировать все действия агента, включая запросы, ответы и промежуточные шаги, в формате, защищённом от подделки. Такая система критически важна для обеспечения прозрачности и отслеживаемости в агентных системах, особенно в контексте безопасности и соответствия регуляторным требованиям.
67% команд от ИИ-агента Gemini оказались небезопасными
Исследователи из Gol Productions протестировали ИИ-агента Gemini на предмет безопасности выполнения команд. В результате выяснилось, что 67% из них были признаны небезопасными. Это важный результат, который подчеркивает необходимость улучшения механизмов безопасности в ИИ-агентах.
Agentjacking атаки: как злоумышленники эксплуатируют ИИ-кодинговые агенты
Исследователи обнаружили новую угрозу для ИИ-агентов, которая получила название agentjacking. В ходе атаки злоумышленники отправляют поддельные отчёты об ошибках в системы Claude Code и Cursor, заставляя агентов выполнять вредоносный код. Это демонстрирует уязвимость ИИ-агентов, которые могут быть использованы для выполнения несанкционированных действий.
Уязвимость в Microsoft 365 Copilot позволяет воровать данные за один клик
Исследователи из безопасности обнаружили новую уязвимость в Microsoft 365 Copilot, которая позволяет злоумышленникам красть данные пользователей всего за один клик. Эта атака использует уязвимость в обработке URL-адресов, что позволяет злоумышленникам встраивать вредоносные ссылки в запросы к Copilot.
Aegis защищает физических ИИ-агентов от аварий
Исследователи из MIT и других университетов представили Aegis — систему, которая обеспечивает «рефлекторную» защиту физических ИИ-агентов. Это решение позволяет агентам автоматически восстанавливаться после аварийных ситуаций, таких как падения или столкновения, без необходимости ручного вмешательства.
Исследование: как пользовательский контент может отравить ИИ-агентов
Исследователи из MIT и Университета Карнеги-Меллона опубликовали работу, в которой показано, как пользовательский контент может «отравить» ИИ-агентов, особенно тех, которые работают с глубокими исследованиями. В статье рассматриваются сценарии, в которых злоумышленники могут встраивать вредоносные данные в пользовательские запросы, что приводит к искажению работы агентов.
Почему идеальной защиты от джейлбрейков LLM не существует
Исследователи из MIT и других университетов опубликовали работу, в которой доказывают невозможность создания идеальной защиты от джейлбрейков для больших языковых моделей (LLM). Авторы обобщают существующие методы защиты и показывают, что ни один из них не может гарантировать абсолютную безопасность.
Каталог атак через инъекции в промпты
Исследователи из Archestra.ai представили подробный каталог атак через инъекции в промпты. В нём описаны 10 основных типов атак, которые могут быть использованы для манипуляции поведением ИИ-агентов. Это важно, потому что инъекции в промпты — один из самых распространённых способов взлома ИИ-систем, и понимание этих атак помогает разрабатывать более защищённые системы.
Sealed: проверяемые аттестации для безопасности ИИ-агентов
Разработчики ИИ-агентов сталкиваются с проблемой проверки безопасности и надежности своих систем. Новый проект Sealed предлагает решение в виде проверяемых аттестаций, которые позволяют пользователям самостоятельно верифицировать заявления о безопасности агентов.
Mythos: безопасность ИИ выходит за рамки моделей
Компания Mythos, занимающаяся безопасностью ИИ, выпустила исследование, в котором утверждается, что традиционные подходы к обеспечению безопасности ИИ, основанные на встраивании механизмов безопасности непосредственно в модели, неэффективны. Исследователи приходят к выводу, что безопасность ИИ должна быть вынесена за пределы моделей и рассматриваться как отдельный слой инфраструктуры.
Проблемы авторизации в песочницах для кодинг-агентов
Разработчики ИИ-агентов часто сталкиваются с необходимостью обеспечения безопасности при выполнении задач, требующих доступа к конфиденциальным данным или системам. Одним из популярных решений являются песочницы, которые изолируют агентов от основной инфраструктуры. Однако, как отмечается в статье на Permit.io, песочницы не решают проблему авторизации и управления учетными данными.
Batta: инструмент для проверки безопасности кода ИИ-агентов
Разработчики из Dolevco представили Batta — открытый инструмент для проведения security reviews на этапе планирования кода, создаваемого ИИ-агентами. Это решение направлено на минимизацию рисков, связанных с автоматизированным программированием, и повышение надежности агентов.
NewCore получает $66 млн для управления идентичностью ИИ-агентов
Компания NewCore, специализирующаяся на управлении идентичностью ИИ-агентов, привлекла $66 млн инвестиций. Это подтверждает растущую важность безопасности и управления в эпоху, когда ИИ-агенты становятся неотъемлемой частью корпоративных процессов.
RFC 9396: OAuth 2.0 Rich Authorization Requests для ИИ-агентов
RFC 9396 — это новый стандарт, расширяющий OAuth 2.0 для более гибкой и безопасной авторизации. Он позволяет передавать дополнительные параметры в запросах авторизации, что может быть полезно для ИИ-агентов, работающих с различными сервисами и API.