Исследователи представили OpenRCA 2.0 — обновленный бенчмарк для оценки способности ИИ-агентов проводить анализ первопричин (Root Cause Analysis). В отличие от предшественников, фокусирующихся только на конечном результате, новая методология использует причинно-следственный надзор за процессом. Это заставляет модели демонстрировать глубокое понимание логических цепочек и последовательностей событий, а не просто полагаться на простое сопоставление паттернов в данных.
Традиционные методы оценки RCA часто ограничиваются проверкой того, нашла ли модель правильный «корень» проблемы. Однако такой подход не учитывает, как именно агент пришел к выводу, что делает задачу тривиальной для современных LLM. OpenRCA 2.0 вводит разметку путей распространения ошибки, что требует от агента поэтапного обоснования каждого шага анализа, имитируя реальную работу инженеров по устранению неполадок в сложных системах.
Внедрение процессного надзора (process supervision) позволяет более точно оценить качество рассуждений агента. Если модель находит верный ответ, но использует неверную логическую цепочку, система это фиксирует. Такой подход критически важен для развития автономных агентов, работающих в критически важных инфраструктурах, где понимание контекста и причинно-следственных связей важнее, чем просто угадывание финального статуса инцидента.
Ключевые факты
- OpenRCA 2.0 переходит от оценки только конечных меток (outcome labels) к анализу всей цепочки причинно-следственных связей.
- Бенчмарк тестирует комплексные агентные навыки: работу с длинным контекстом, многошаговое рассуждение и использование внешних инструментов.
- Методология направлена на устранение проблемы «наивного сопоставления паттернов», характерной для предыдущих наборов данных по анализу инцидентов.
- Новый подход позволяет выявлять ошибки в логике агентов, даже если итоговый вывод оказывается формально верным.