Исследователи представили SAFARI — фреймворк для диагностики сбоев в автономных агентах, выполняющих сложные многошаговые задачи. В отличие от традиционных методов, загружающих всю историю действий в контекстное окно модели, SAFARI использует активное исследование траектории. Это позволяет эффективно выявлять причины ошибок даже в процессах, значительно превышающих лимиты контекста современных LLM, избегая проблемы «размытия» внимания.

При масштабировании агентных систем до выполнения задач с сотнями или тысячами шагов стандартные подходы к отладке становятся неэффективными. Модели теряют точность при анализе перегруженных контекстных окон, что затрудняет поиск конкретного этапа, на котором произошел сбой. SAFARI решает эту проблему, превращая процесс диагностики в итеративное исследование, где система целенаправленно запрашивает информацию о критических узлах выполнения.

Метод позволяет значительно снизить вычислительные затраты и повысить точность атрибуции ошибок в многоагентных средах. Вместо анализа всей последовательности действий, фреймворк фокусируется на причинно-следственных связях, что критически важно для надежной работы автономных систем в реальных бизнес-сценариях, где цена ошибки высока, а цепочки рассуждений могут быть крайне запутанными.

Ключевые факты

  • SAFARI использует стратегию активного исследования для поиска причин сбоев, обходя ограничения контекстного окна LLM.
  • Метод предназначен для работы с длинными горизонтами планирования, где традиционные методы страдают от «размытия» внимания (attention dilution).
  • Фреймворк оптимизирует диагностику многошаговых и многоагентных задач, сокращая объем данных, необходимых для анализа.
  • Подход позволяет эффективно выявлять точки отказа в траекториях, которые физически не помещаются в память модели.