arXiv · 24.06.2026 ·Оценка и бенчмарки

RevengeBench: восстановление исходного кода ИИ-агентов по их поведению

Исследователи представили RevengeBench — новый бенчмарк для оценки способности моделей восстанавливать логику принятия решений агентов. Задача заключается в обратном проектировании исполняемого кода на основе наблюдений за поведением агента в игровых средах. Это позволяет анализировать скрытые механизмы работы систем, когда доступ к их внутренним весам или архитектуре ограничен, превращая поведенческие следы в интерпретируемый программный код.

Метод опирается на концепцию решения обратных задач, где внешние действия агента служат входными данными для реконструкции управляющей программы. В отличие от стандартных тестов на производительность, RevengeBench фокусируется на прозрачности и интерпретируемости, проверяя, насколько точно модель может декомпилировать «черный ящик» поведения в логические конструкции. Это критически важно для аудита безопасности и понимания того, какими правилами руководствуется агент при выполнении сложных задач.

Экспериментальная база включает различные игровые сценарии, где агенты демонстрируют специфические стратегии. Исследователи используют эти траектории для обучения или настройки моделей-реконструкторов, которые пытаются предсказать исходный код или алгоритмическую структуру, лежащую в основе наблюдаемых действий. Такой подход открывает новые возможности для анализа поведения автономных систем в неконтролируемых условиях, где прямой доступ к исходникам невозможен.

Ключевые факты

RevengeBench направлен на решение задачи обратного проектирования (reverse engineering) кода агентов по их поведенческим логам.
Методология основана на преобразовании наблюдаемых действий в исполняемые программные инструкции.
Бенчмарк тестирует способность моделей восстанавливать скрытые политики принятия решений в игровых средах.
Работа подчеркивает переход от простого наблюдения за результатами работы ИИ к глубокому анализу алгоритмической логики агентов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы