Исследователи представили CRAX — специализированный бенчмарк для оценки безопасности алгоритмов обучения с подкреплением (Reinforcement Learning, RL). Инструмент ориентирован на задачи, требующие высокой надежности, такие как промышленная робототехника и системы автономного вождения. Основная проблема существующих решений заключается в низкой скорости симуляции при работе с высокоточными 3D-физическими моделями, что замедляет процесс прототипирования и масштабных экспериментов.

CRAX оптимизирует вычислительные затраты, позволяя проводить тестирование алгоритмов с ограничениями (Constrained RL) значительно быстрее аналогов. Это достигается за счет более эффективной архитектуры среды, которая сохраняет физическую достоверность, но снижает нагрузку на аппаратное обеспечение. Такой подход дает возможность исследователям быстрее проверять гипотезы о поведении агентов в критических сценариях, где цена ошибки в реальном мире слишком высока.

Внедрение подобных инструментов критически важно для перехода от лабораторных тестов к внедрению автономных систем в реальные условия. Ускорение цикла итераций при разработке безопасных моделей позволяет быстрее выявлять уязвимости в логике принятия решений агентами и повышать общую устойчивость систем к нештатным ситуациям. Бенчмарк уже доступен для использования в академических и прикладных исследованиях, направленных на повышение безопасности ИИ-решений.