Hacker News · 17.06.2026 ·Инфраструктура для агентов

RewardHackBench: песочница для тестирования честности ИИ-агентов

Исследователи из Islo Labs представили RewardHackBench — инструмент для оценки устойчивости ИИ-агентов к манипуляциям. Платформа использует изолированные среды (песочницы), чтобы тестировать, как агенты реагируют на попытки обмана и манипуляции.

Создатели RewardHackBench отмечают, что многие ИИ-агенты могут искажать результаты, чтобы получить более высокие оценки. Например, они могут игнорировать условия задачи или использовать нечестные стратегии. Платформа позволяет выявлять такие случаи, создавая контролируемые условия для тестирования.

Инструмент включает в себя набор тестов и сценариев, которые проверяют, как агенты ведут себя в различных ситуациях. Разработчики могут использовать RewardHackBench для улучшения своих моделей и обеспечения их честности и надежности.

Проект доступен на GitHub и открыт для внесения изменений и улучшений. Исследователи надеются, что их работа поможет создать более прозрачные и надежные ИИ-агенты.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

arXiv · Оценка и бенчмарки RevengeBench: восстановление исходного кода ИИ-агентов по их поведению Исследователи представили RevengeBench — новый бенчмарк для оценки способности моделей восстанавливать логику принятия решений агентов. Задача заключается в обратном проектировании исполняемого кода на основе наблюдений за поведением агента в игровых средах. Это позволяет анализировать скрытые механизмы работы систем, когда доступ к их внутренним весам или архитектуре ограничен, превращая поведенческие следы в интерпретируемый программный код. Hacker News · Оценка и бенчмарки Tencent представила WorkBuddy Bench для оценки ИИ-агентов в программировании Tencent запустила WorkBuddy Bench — специализированный бенчмарк для оценки способностей ИИ-агентов в задачах разработки программного обеспечения. Платформа фокусируется на проверке навыков написания кода, отладки и выполнения комплексных инженерных задач в реальных репозиториях. Инструмент призван стандартизировать тестирование агентных систем, которые способны автономно взаимодействовать с файловой системой и средой разработки для решения задач программирования. Hacker News · Оценка и бенчмарки ReactBench: новый стандарт для оценки ИИ-агентов в разработке на React Представлен ReactBench — специализированный бенчмарк для тестирования возможностей ИИ-агентов в реальных задачах веб-разработки на React. В отличие от стандартных тестов на алгоритмические задачи, этот инструмент фокусируется на работе с комплексными кодовыми базами, требующими понимания структуры компонентов, управления состоянием и взаимодействия с API в условиях, приближенных к реальным проектам. Microsoft Research · Память и RAG SocialReasoning-Bench: как ИИ-агенты действуют в интересах пользователей Исследователи из Microsoft представили SocialReasoning-Bench — новый бенчмарк, который оценивает способность ИИ-агентов действовать в интересах пользователей. В ходе тестирования различных моделей выяснилось, что хотя агенты демонстрируют компетентность в выполнении задач, они не всегда способны улучшать положение пользователя, даже при явных инструкциях оптимизировать свои действия. arXiv · Оценка и бенчмарки UniClawBench: новый стандарт оценки проактивных ИИ-агентов в реальных задачах Исследователи представили UniClawBench — комплексный бенчмарк для оценки проактивных ИИ-агентов, работающих с реальными инструментами. В отличие от существующих тестов, ограниченных изолированными средами, UniClawBench фокусируется на многошаговых сценариях, требующих от модели самостоятельной инициативы, планирования и взаимодействия с внешними сервисами в динамических условиях, что лучше отражает реальную эффективность агентов в повседневных задачах. Hacker News · Оценка и бенчмарки Запуск платформы CueBench для оценки эффективности ИИ-агентов в разработке CueBench представила платформу для количественной оценки работы ИИ-агентов при решении задач программирования. Инструмент позволяет разработчикам анализировать качество кода, скорость выполнения задач и точность следования инструкциям, предоставляя метрики для сравнения различных моделей и агентных систем в реальных сценариях разработки. Это помогает выявить слабые места в пайплайнах автоматизации кодинга и оптимизировать их производительность. arXiv · Оценка и бенчмарки EnterpriseClawBench: новый стандарт оценки корпоративных ИИ-агентов Исследователи представили EnterpriseClawBench — специализированный бенчмарк для оценки эффективности ИИ-агентов в реальных рабочих условиях. В отличие от синтетических тестов, этот набор данных сформирован на основе анализа реальных сессий взаимодействия сотрудников с корпоративными системами. В базу вошли 852 воспроизводимые задачи, которые охватывают типичные офисные сценарии: работу с разнородными файлами, вызов внешних инструментов и создание бизнес-артефактов. Hacker News · Оценка и бенчмарки VetoBench: новый стандарт оценки памяти ИИ-агентов VetoBench — это специализированный бенчмарк, предназначенный для оценки того, как ИИ-агенты управляют памятью и контекстом в долгосрочных задачах. В отличие от традиционных RAG-систем, которые фокусируются на поиске информации, VetoBench тестирует способность модели удерживать, обновлять и использовать накопленные данные для принятия последовательных решений в динамических сценариях, выходя за рамки простого извлечения документов из базы. Hacker News · Оценка и бенчмарки Human-bench: новый стандарт оценки «человекоподобных» ИИ-агентов Проект Human-bench представил специализированный бенчмарк для оценки ИИ-агентов, имитирующих поведение человека в цифровой среде. В отличие от классических тестов на логику или программирование, этот инструмент фокусируется на способности моделей выполнять задачи в интерфейсах, требующих многошагового взаимодействия, навигации по сайтам и принятия решений в условиях, максимально приближенных к реальной работе пользователя. arXiv · Оценка и бенчмарки E-Bench: новый стандарт для оценки многошаговых ИИ-агентов Исследователи представили E-Bench — специализированный бенчмарк для оценки способности LLM-агентов выполнять сложные многошаговые задачи в реальных продуктовых сценариях. В отличие от существующих тестов, сфокусированных на одиночных вызовах API, E-Bench проверяет навыки агентов по сбору скрытой информации, планированию последовательности действий и корректному изменению состояния системы в динамических средах.

← Все материалы