arXiv · 16.06.2026 ·Инфраструктура для агентов

StepGuard: защита веб-навигации через однократную калибровку

Исследователи представили новый метод StepGuard для улучшения веб-навигации ИИ-агентов. Текущие подходы, использующие визуально-языковые модели и обучение с подкреплением, страдают от хрупкости на отдельных шагах из-за несоответствия вознаграждений и накопления ошибок.

Новый метод, Dynamic Dual-Policy Optimization (DDPO), решает проблему переплетения вознаграждений. Он разделяет обучение на два этапа: сначала модель обучается на простых задачах, а затем на более сложных. Это позволяет избежать накопления ошибок и улучшает точность выполнения задач.

StepGuard демонстрирует значительное улучшение по сравнению с базовыми методами, особенно в задачах, требующих последовательных действий. Исследование показывает, что новый подход может быть полезен для создания более надёжных и точных веб-агентов.

Работа опубликована на arXiv и доступна для дальнейшего изучения.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Безопасность и алайнмент AST-guard: защита от взлома функций вознаграждения в обучении с подкреплением AST-guard — это новый инструмент для защиты моделей обучения с подкреплением (RL) от манипуляций с функциями вознаграждения (reward hacking). Решение анализирует абстрактное синтаксическое дерево (AST) кода, который генерирует агент, предотвращая выполнение небезопасных или нецелевых действий. Метод устойчив к градиентным атакам, что делает его эффективным инструментом для обеспечения безопасности агентных систем. arXiv · Безопасность и алайнмент Метод маскирования контента для защиты веб-агентов от промпт-инъекций Исследователи представили новый подход к обеспечению безопасности веб-агентов, направленный на предотвращение промпт-инъекций. Метод основан на строгом разделении доверенных инструкций и внешних данных, поступающих из веб-среды. Технология позволяет агентам взаимодействовать с сайтами, минимизируя риск выполнения вредоносного кода, скрытого в контенте страниц, что критически важно для безопасной автоматизации действий в браузере. arXiv · Безопасность и алайнмент DT-Guard: новый метод обучения защитных фильтров для LLM Исследователи представили DT-Guard — метод обучения защитных механизмов для LLM, который сочетает эффективность классификаторов с глубиной рассуждений агентных систем. Подход использует «обучение с активным рассуждением», позволяя моделям-фильтрам распознавать скрытые намерения и неоднозначные запросы без необходимости запуска тяжелых LLM в режиме реального времени, что критично для низкозадержных систем. arXiv · Оркестрация агентов Новый метод обучения GUI-агентов через автономное исследование опыта Исследователи представили метод повышения эффективности мультимодальных веб-агентов при выполнении сложных задач в графических интерфейсах. Подход базируется на автономном исследовании среды и использовании ретроспективного анализа накопленного опыта. Это позволяет компактным open-source моделям значительно улучшить навыки планирования и обобщения действий на различных сайтах, не уступая в качестве работы проприетарным крупным языковым моделям. Hacker News · Инфраструктура для агентов Chainguard развивает систему безопасности для ИИ-агентов Компания Chainguard представила обновленный подход к обеспечению безопасности агентных систем, ориентированный на управление цепочками поставок программного обеспечения. Решение фокусируется на защите сред выполнения, в которых работают автономные ИИ-агенты, минимизируя риски использования скомпрометированных библиотек и вредоносных зависимостей в агентных пайплайнах. arXiv · Инфраструктура для агентов PolicyGuard: верификация соблюдения политик в многошаговых ИИ-агентах Исследователи представили PolicyGuard — фреймворк для контроля соблюдения корпоративных политик в ИИ-агентах. В отличие от традиционных внешних фильтров, система использует специализированного под-агента-верификатора, который анализирует контекст диалога в динамике. Это позволяет агентам точнее следовать инструкциям при выполнении сложных многошаговых задач, требующих подтверждения действий пользователя и соблюдения внутренних регламентов организации. arXiv · Безопасность и алайнмент Верификация вероятностных политик безопасности для ИИ-агентов Исследователи представили новый метод верификации, позволяющий контролировать поведение ИИ-агентов в сложных цифровых средах с учетом вероятностных факторов. Ранее существующие системы мониторинга в реальном времени опирались на детерминированные политики, выраженные на языке Datalog, что ограничивало их применение в условиях неопределенности. Новый подход расширяет возможности формальной верификации, позволяя задавать правила безопасности для сценариев, где действия агента могут приводить к различным исходам с разной степенью вероятности. Hacker News · Инфраструктура для агентов NakshGuard: прокси для предотвращения бесконечных циклов в ИИ-агентах Разработчики представили NakshGuard – локальный прокси-сервер, предназначенный для предотвращения бесконечных циклов в работе ИИ-агентов. Проблема бесконечных циклов часто возникает при взаимодействии агентов с внешними системами, что может приводить к неэффективной работе и повышенным затратам на вычисления. arXiv · Безопасность и алайнмент Анализ защитных методов против автоматизированных атак на ИИ-агентов Исследователи представили анализ эффективности защитных стратегий против автоматизированных атак на агентные системы. Современные ИИ-агенты активно используют языковые модели для интерпретации инструкций, обработки внешних данных и взаимодействия с инструментами. Это расширяет поверхность атаки, позволяя злоумышленникам применять автоматизированные методы для масштабирования промпт-инъекций и подбора обходов ограничений безопасности. Hacker News · Безопасность и алайнмент Исследование эффективности систем защиты для ИИ-агентов Mozilla.ai представила результаты комплексного тестирования инструментов безопасности (guardrails) для ИИ-агентов. Исследование оценивает способность открытых решений предотвращать вредоносные действия, такие как инъекции промптов и несанкционированный доступ к данным. Анализ показывает, что существующие методы защиты часто уязвимы перед сложными атаками, что требует пересмотра подходов к обеспечению безопасности в агентных системах.

← Все материалы