Безопасность и алайнмент

Chainguard и BNY Mellon создают коалицию для исправления уязвимостей в моделях ИИ Hacker News · 16.06.2026 Chainguard и BNY Mellon объединились для создания новой коалиции, направленной на исправление уязвимостей в моделях искусственного интеллекта. Инициатива получила название Athena и будет заниматься выявлением и устранением уязвимостей, обнаруженных с помощью передовых моделей ИИ. ClimateSOS представила хартию для безопасного использования ИИ Hacker News · 16.06.2026 Климатическая организация ClimateSOS выпустила Foundational Charter, документ, который устанавливает принципы безопасного использования ИИ в проектах, связанных с климатом. Хартия включает рекомендации по минимизации рисков, связанных с использованием ИИ, и обеспечивает прозрачность в разработке и применении технологий. Mistral AI повторяет дезинформацию в половине случаев Hacker News · 16.06.2026 Исследование NewsGuard показало, что чат-бот Mistral AI повторяет ложную информацию в 50% случаев, когда его запрашивают о государственной пропаганде. В частности, речь идёт о дезинформации, связанной с войной в Украине и Иране. Информационный контроль для автономных агентов Hacker News · 16.06.2026 Исследователи из Microsoft представили подход к управлению потоками информации в ИИ-агентах. Новый метод позволяет контролировать доступ к данным и операции, что критично для безопасности автономных систем. Исследование: налог на проверку в ИИ-агентах Hacker News · 16.06.2026 Учёные из Стэнфорда и MIT провели исследование, посвящённое компромиссу между безопасностью и эффективностью в ИИ-агентах, использующих инструменты. Они ввели понятие «налог на проверку» — дополнительные затраты на обеспечение безопасности, которые снижают общую производительность агентов. OpenACA — сканер безопасности для стеков ИИ-агентов Hacker News · 16.06.2026 Разработчики представили OpenACA — инструмент для сканирования безопасности стеков ИИ-агентов. Платформа проверяет MCP-серверы, навыки и плагины на уязвимости, которые могут быть использованы злоумышленниками. Сравнение моделей ИИ по способности к исследованию безопасности Hacker News · 16.06.2026 Недавно исследователи из ZeroQuarry провели сравнительный анализ различных языковых моделей (LLM) на предмет их способности выполнять задачи в области безопасности. В исследовании участвовали модели от OpenAI, Mistral, Anthropic и других, которые тестировались на различных сценариях, связанных с выявлением уязвимостей, анализом кода и генерацией рекомендаций по защите. Как гибкость энергосетей ускоряет запуск дата-центров Artificial intelligence – MIT Technology Review · 16.06.2026 Современные дата-центры требуют огромных объемов энергии, и их запуск часто сталкивается с проблемами инфраструктуры. В статье Technology Review рассматривается, как гибкость энергосетей может решить эту проблему. Например, во время массового включения электрических чайников в Великобритании во время футбольного матча, энергосистема смогла адаптироваться благодаря гибким решениям. ИИ-агенты как основа адаптивных компьютерных червей Hacker News · 16.06.2026 Исследователи из Cleverhans Lab представили концепцию адаптивных компьютерных червей, которые используют ИИ-агентов для эволюции и распространения. В отличие от традиционных червей, новые версии могут анализировать среду, адаптироваться к защите и выбирать оптимальные пути распространения. Это возможно благодаря интеграции ИИ-агентов, способных принимать решения на основе контекста и обучаться в процессе эксплуатации. Уязвимости в цепочках поставок ИИ-моделей Hacker News · 16.06.2026 Исследователи обнаружили новые векторы атак на цепочки поставок ИИ-моделей, которые могут привести к серьезным уязвимостям в системах, использующих эти модели. В статье на Substack подробно рассматриваются случаи, когда злоумышленники могут внедрять вредоносный код в модели, которые затем используются в различных ИИ-агентах и сервисах. Tamper-evident audit trail для ИИ-агентов Hacker News · 15.06.2026 Constellation Labs представили Gate OC Audit — инструмент для создания неизменяемых логов активности ИИ-агентов. Это решение позволяет фиксировать все действия агента, включая запросы, ответы и промежуточные шаги, в формате, защищённом от подделки. Такая система критически важна для обеспечения прозрачности и отслеживаемости в агентных системах, особенно в контексте безопасности и соответствия регуляторным требованиям. 67% команд от ИИ-агента Gemini оказались небезопасными Hacker News · 15.06.2026 Исследователи из Gol Productions протестировали ИИ-агента Gemini на предмет безопасности выполнения команд. В результате выяснилось, что 67% из них были признаны небезопасными. Это важный результат, который подчеркивает необходимость улучшения механизмов безопасности в ИИ-агентах. Agentjacking атаки: как злоумышленники эксплуатируют ИИ-кодинговые агенты Hacker News · 15.06.2026 Исследователи обнаружили новую угрозу для ИИ-агентов, которая получила название agentjacking. В ходе атаки злоумышленники отправляют поддельные отчёты об ошибках в системы Claude Code и Cursor, заставляя агентов выполнять вредоносный код. Это демонстрирует уязвимость ИИ-агентов, которые могут быть использованы для выполнения несанкционированных действий. Уязвимость в Microsoft 365 Copilot позволяет воровать данные за один клик Hacker News · 15.06.2026 Исследователи из безопасности обнаружили новую уязвимость в Microsoft 365 Copilot, которая позволяет злоумышленникам красть данные пользователей всего за один клик. Эта атака использует уязвимость в обработке URL-адресов, что позволяет злоумышленникам встраивать вредоносные ссылки в запросы к Copilot. Aegis защищает физических ИИ-агентов от аварий Hacker News · 15.06.2026 Исследователи из MIT и других университетов представили Aegis — систему, которая обеспечивает «рефлекторную» защиту физических ИИ-агентов. Это решение позволяет агентам автоматически восстанавливаться после аварийных ситуаций, таких как падения или столкновения, без необходимости ручного вмешательства. Исследование: как пользовательский контент может отравить ИИ-агентов Hacker News · 15.06.2026 Исследователи из MIT и Университета Карнеги-Меллона опубликовали работу, в которой показано, как пользовательский контент может «отравить» ИИ-агентов, особенно тех, которые работают с глубокими исследованиями. В статье рассматриваются сценарии, в которых злоумышленники могут встраивать вредоносные данные в пользовательские запросы, что приводит к искажению работы агентов. Почему идеальной защиты от джейлбрейков LLM не существует Hacker News · 15.06.2026 Исследователи из MIT и других университетов опубликовали работу, в которой доказывают невозможность создания идеальной защиты от джейлбрейков для больших языковых моделей (LLM). Авторы обобщают существующие методы защиты и показывают, что ни один из них не может гарантировать абсолютную безопасность. Каталог атак через инъекции в промпты Hacker News · 15.06.2026 Исследователи из Archestra.ai представили подробный каталог атак через инъекции в промпты. В нём описаны 10 основных типов атак, которые могут быть использованы для манипуляции поведением ИИ-агентов. Это важно, потому что инъекции в промпты — один из самых распространённых способов взлома ИИ-систем, и понимание этих атак помогает разрабатывать более защищённые системы. Sealed: проверяемые аттестации для безопасности ИИ-агентов Hacker News · 15.06.2026 Разработчики ИИ-агентов сталкиваются с проблемой проверки безопасности и надежности своих систем. Новый проект Sealed предлагает решение в виде проверяемых аттестаций, которые позволяют пользователям самостоятельно верифицировать заявления о безопасности агентов. Mythos: безопасность ИИ выходит за рамки моделей Hacker News · 15.06.2026 Компания Mythos, занимающаяся безопасностью ИИ, выпустила исследование, в котором утверждается, что традиционные подходы к обеспечению безопасности ИИ, основанные на встраивании механизмов безопасности непосредственно в модели, неэффективны. Исследователи приходят к выводу, что безопасность ИИ должна быть вынесена за пределы моделей и рассматриваться как отдельный слой инфраструктуры. Проблемы авторизации в песочницах для кодинг-агентов Hacker News · 15.06.2026 Разработчики ИИ-агентов часто сталкиваются с необходимостью обеспечения безопасности при выполнении задач, требующих доступа к конфиденциальным данным или системам. Одним из популярных решений являются песочницы, которые изолируют агентов от основной инфраструктуры. Однако, как отмечается в статье на Permit.io, песочницы не решают проблему авторизации и управления учетными данными. Batta: инструмент для проверки безопасности кода ИИ-агентов Hacker News · 15.06.2026 Разработчики из Dolevco представили Batta — открытый инструмент для проведения security reviews на этапе планирования кода, создаваемого ИИ-агентами. Это решение направлено на минимизацию рисков, связанных с автоматизированным программированием, и повышение надежности агентов. NewCore получает $66 млн для управления идентичностью ИИ-агентов TechCrunch · 15.06.2026 Компания NewCore, специализирующаяся на управлении идентичностью ИИ-агентов, привлекла $66 млн инвестиций. Это подтверждает растущую важность безопасности и управления в эпоху, когда ИИ-агенты становятся неотъемлемой частью корпоративных процессов. RFC 9396: OAuth 2.0 Rich Authorization Requests для ИИ-агентов Hacker News · 14.06.2026 RFC 9396 — это новый стандарт, расширяющий OAuth 2.0 для более гибкой и безопасной авторизации. Он позволяет передавать дополнительные параметры в запросах авторизации, что может быть полезно для ИИ-агентов, работающих с различными сервисами и API.