arXiv · 23.06.2026 ·Оркестрация агентов

SAFARI: новый метод диагностики ошибок в длинных агентных траекториях

Исследователи представили SAFARI — фреймворк для диагностики сбоев в автономных агентах, выполняющих сложные многошаговые задачи. В отличие от традиционных методов, загружающих всю историю действий в контекстное окно модели, SAFARI использует активное исследование траектории. Это позволяет эффективно выявлять причины ошибок даже в процессах, значительно превышающих лимиты контекста современных LLM, избегая проблемы «размытия» внимания.

При масштабировании агентных систем до выполнения задач с сотнями или тысячами шагов стандартные подходы к отладке становятся неэффективными. Модели теряют точность при анализе перегруженных контекстных окон, что затрудняет поиск конкретного этапа, на котором произошел сбой. SAFARI решает эту проблему, превращая процесс диагностики в итеративное исследование, где система целенаправленно запрашивает информацию о критических узлах выполнения.

Метод позволяет значительно снизить вычислительные затраты и повысить точность атрибуции ошибок в многоагентных средах. Вместо анализа всей последовательности действий, фреймворк фокусируется на причинно-следственных связях, что критически важно для надежной работы автономных систем в реальных бизнес-сценариях, где цена ошибки высока, а цепочки рассуждений могут быть крайне запутанными.

Ключевые факты

SAFARI использует стратегию активного исследования для поиска причин сбоев, обходя ограничения контекстного окна LLM.
Метод предназначен для работы с длинными горизонтами планирования, где традиционные методы страдают от «размытия» внимания (attention dilution).
Фреймворк оптимизирует диагностику многошаговых и многоагентных задач, сокращая объем данных, необходимых для анализа.
Подход позволяет эффективно выявлять точки отказа в траекториях, которые физически не помещаются в память модели.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Инфраструктура для агентов SHERLOC: новый фреймворк для точной локализации ошибок в коде Исследователи представили SHERLOC — фреймворк для структурированной диагностики ошибок в коде, предназначенный для повышения эффективности ИИ-агентов. В отличие от стандартных методов поиска файлов, SHERLOC использует гипотетико-дедуктивный подход для выявления конкретных дефектов. Это позволяет агентам тратить меньше ресурсов на диагностику и получать контекст, необходимый для автоматического исправления ошибок на уровне репозитория. Hacker News · Инфраструктура для агентов StaleTrace: инструмент для отладки состояний в ИИ-агентах Разработчики представили StaleTrace — инструмент для отслеживания временных состояний, помогающий выявлять ошибки, связанные с устаревшими данными в агентных системах. Проблема актуальности контекста остается одной из ключевых при создании автономных агентов, которые взаимодействуют с внешними API и базами данных в реальном времени. Инструмент позволяет визуализировать цепочку изменений и находить моменты, когда агент принимает решения на основе неактуальной информации. arXiv · Оценка и бенчмарки Исследование методов оценки агентных систем для анализа данных Исследователи проанализировали надежность автоматизированных систем оценки для агентных инструментов анализа данных. В работе подчеркивается, что многошаговая природа таких агентов, генерирующих код и интерпретации, усложняет верификацию результатов. Авторы предлагают методологию разграничения реальных ошибок агента и артефактов, возникающих из-за несовершенства самих алгоритмов оценки, что критически важно для повышения точности тестирования сложных ИИ-систем. arXiv · Модели и релизы Новый метод обнаружения ошибок в цепочках рассуждений LLM Исследователи из MIT и Университета Карнеги-Меллона предложили новый подход к выявлению ошибок в цепочках рассуждений языковых моделей (LLM) без использования меток. Их метод, основанный на операдной теории, позволяет обнаруживать несоответствия в логических цепочках, которые модели строят при решении сложных задач. arXiv · Исследования и наука Исследование скрытых ошибок в работе ИИ-агентов Исследователи из Arxiv представили longitudinal study о скрытых ошибках в работе ИИ-агентов, которые работают как долгосрочные автономные системы. В исследовании анализируется система личного ассистента, работающая с марта 2026 года. Система включает в себя около 40 запланированных задач, 8 поставщиков LLM, инструментальный прокси и базу знаний. arXiv · Память и RAG Многоагентный фреймворк для защиты конфиденциальности в RAG-системах Исследователи представили многоагентный подход к защите данных в RAG-системах, предотвращающий утечки конфиденциальной информации через вредоносные промпты. Метод использует семантическое переписывание извлеченного контекста, позволяя сохранять точность ответов модели при строгом соблюдении приватности. Система разделяет задачи анализа, фильтрации и реконструкции данных между специализированными агентами, что минимизирует риски компрометации чувствительных документов в процессе генерации. arXiv · Машинное обучение Новый метод безопасного обучения с подкреплением для долгосрочных задач Исследователи представили новый подход к решению проблемы безопасного исследования в обучении с подкреплением (Reinforcement Learning). Основная сложность заключается в том, что агенты должны максимизировать производительность, строго соблюдая ограничения безопасности. В задачах с длинным горизонтом планирования текущие методы часто сталкиваются с накоплением ошибок оценки и ограниченными возможностями для поиска оптимальных стратегий, что делает их недостаточно надежными. Hugging Face - Blog · Оценка и бенчмарки Новый подход к оценке агентных способностей открытых моделей Hugging Face представила методологию для оценки того, насколько эффективно языковые модели справляются с использованием внешних инструментов. В отличие от стандартных тестов на логику или знание фактов, новый подход фокусируется на способности модели вызывать функции, интерпретировать ответы API и корректировать свои действия в рамках многошаговых задач. Это позволяет разработчикам точнее определять, какая модель лучше подходит для создания автономных агентов. Hacker News · Инфраструктура для агентов Оптимизация стоимости и безопасности в агентных рабочих процессах Разработан новый подход к проектированию агентных систем, направленный на снижение затрат на инференс и повышение предсказуемости поведения моделей. Основная идея заключается в переходе от использования тяжелых LLM для выполнения всех этапов задачи к многоуровневой архитектуре, где сложные логические операции делегируются специализированным компактным моделям или жестко заданным алгоритмическим модулям. The Cloudflare Blog · ИИ в бизнесе Cloudflare раскрыла архитектуру автоматизированной системы поиска уязвимостей Компания Cloudflare представила технические детали своей многоступенчатой системы для поиска уязвимостей, работающей на базе автоматизированного цикла обработки данных. Решение позволяет выстраивать цепочки анализа, где ИИ-модели последовательно проверяют код на наличие брешей, минимизируя участие человека в рутинных операциях. Ключевым элементом архитектуры стала система управления состоянием, которая позволяет отслеживать прогресс анализа на разных этапах и эффективно обходить ограничения контекстного окна LLM.

← Все материалы