Исследователи представили RevengeBench — новый бенчмарк для оценки способности моделей восстанавливать логику принятия решений агентов. Задача заключается в обратном проектировании исполняемого кода на основе наблюдений за поведением агента в игровых средах. Это позволяет анализировать скрытые механизмы работы систем, когда доступ к их внутренним весам или архитектуре ограничен, превращая поведенческие следы в интерпретируемый программный код.

Метод опирается на концепцию решения обратных задач, где внешние действия агента служат входными данными для реконструкции управляющей программы. В отличие от стандартных тестов на производительность, RevengeBench фокусируется на прозрачности и интерпретируемости, проверяя, насколько точно модель может декомпилировать «черный ящик» поведения в логические конструкции. Это критически важно для аудита безопасности и понимания того, какими правилами руководствуется агент при выполнении сложных задач.

Экспериментальная база включает различные игровые сценарии, где агенты демонстрируют специфические стратегии. Исследователи используют эти траектории для обучения или настройки моделей-реконструкторов, которые пытаются предсказать исходный код или алгоритмическую структуру, лежащую в основе наблюдаемых действий. Такой подход открывает новые возможности для анализа поведения автономных систем в неконтролируемых условиях, где прямой доступ к исходникам невозможен.

Ключевые факты

  • RevengeBench направлен на решение задачи обратного проектирования (reverse engineering) кода агентов по их поведенческим логам.
  • Методология основана на преобразовании наблюдаемых действий в исполняемые программные инструкции.
  • Бенчмарк тестирует способность моделей восстанавливать скрытые политики принятия решений в игровых средах.
  • Работа подчеркивает переход от простого наблюдения за результатами работы ИИ к глубокому анализу алгоритмической логики агентов.