arXiv · 16.06.2026 ·Оценка и бенчмарки

Новый бенчмарк проверяет ИИ-агентов на соблюдение благополучия животных

Исследователи представили новый бенчмарк TAC, который оценивает способность ИИ-агентов учитывать благополучие животных при выполнении задач. В отличие от существующих тестов, которые проверяют только текстовые ответы, TAC фокусируется на реальных действиях агентов, таких как бронирование путешествий или планирование мероприятий.

Авторы отмечают, что ИИ-агенты всё чаще переходят от роли советников к исполнителям, принимая решения и действуя от имени пользователей. Это требует новых методов оценки, которые учитывают не только теоретические знания, но и практические последствия.

В рамках бенчмарка агентов проверяют на способность избегать действий, которые могут навредить животным. Например, при бронировании путешествия агент должен учитывать экологические и этические аспекты, такие как запрет на посещение зоопарков или участие в корриде.

Исследование подчёркивает важность интеграции принципов благополучия животных в работу ИИ-агентов, особенно в контексте их всё более активного использования в повседневной жизни.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Microsoft Research · Память и RAG SocialReasoning-Bench: как ИИ-агенты действуют в интересах пользователей Исследователи из Microsoft представили SocialReasoning-Bench — новый бенчмарк, который оценивает способность ИИ-агентов действовать в интересах пользователей. В ходе тестирования различных моделей выяснилось, что хотя агенты демонстрируют компетентность в выполнении задач, они не всегда способны улучшать положение пользователя, даже при явных инструкциях оптимизировать свои действия. Hacker News · Оценка и бенчмарки Исследование: насколько текущие бенчмарки отражают реальные способности ИИ-агентов Новое исследование критически оценивает методологию тестирования автономных ИИ-агентов. Авторы утверждают, что современные бенчмарки часто не учитывают сложность реальных сценариев, подменяя проверку агентных навыков простым решением задач. Это приводит к завышению показателей производительности и не позволяет объективно оценить готовность систем к выполнению многоэтапных процессов в непредсказуемых условиях. Hacker News · Оценка и бенчмарки Новый подход к оценке эволюции агентных систем Исследователи представили методологию переосмысления оценки эволюции агентных систем, направленную на решение проблем нестабильности существующих бенчмарков. Авторы анализируют, как именно меняются способности агентов при итеративном дообучении и изменении архитектуры, предлагая более строгие метрики для отслеживания прогресса в выполнении сложных многошаговых задач, что позволяет точнее прогнозировать реальную производительность ИИ-агентов в динамических средах. arXiv · Оценка и бенчмарки AgentBeats: новый подход к оценке ИИ-агентов Исследователи из Arxiv предложили новый подход к оценке ИИ-агентов, который решает проблему фрагментированности тестирования. В статье "AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility" авторы отмечают, что существующие бенчмарки часто зависят от фиксированных, ориентированных на LLM, тестовых фреймворков. Это создает несоответствие между тестовыми и производственными условиями, а также ограничивает справедливое сравнение различных архитектур агентов. Hacker News · Оценка и бенчмарки Agents' Last Exam: новый бенчмарк для оценки ИИ-агентов в реальных задачах Исследователи представили Agents' Last Exam — комплексный бенчмарк для оценки способностей ИИ-агентов к выполнению профессиональных рабочих процессов. В отличие от стандартных тестов, ориентированных на решение изолированных задач, этот инструмент проверяет умение моделей взаимодействовать с реальным программным обеспечением, работать с файловыми системами и выполнять многошаговые инструкции в условиях, приближенных к офисной деятельности. arXiv · Оценка и бенчмарки UniClawBench: новый стандарт оценки проактивных ИИ-агентов в реальных задачах Исследователи представили UniClawBench — комплексный бенчмарк для оценки проактивных ИИ-агентов, работающих с реальными инструментами. В отличие от существующих тестов, ограниченных изолированными средами, UniClawBench фокусируется на многошаговых сценариях, требующих от модели самостоятельной инициативы, планирования и взаимодействия с внешними сервисами в динамических условиях, что лучше отражает реальную эффективность агентов в повседневных задачах. Hugging Face - Blog · Оценка и бенчмарки VAKRA: новый бенчмарк для тестирования ИИ-агентов Исследователи из IBM Research представили VAKRA — новый бенчмарк для оценки способностей ИИ-агентов к логическому мышлению, использованию инструментов и обработке ошибок. В отличие от существующих тестов, VAKRA фокусируется на комплексных сценариях, требующих от агентов не только генерации текста, но и выполнения последовательных действий с анализом промежуточных результатов. arXiv · Исследования и наука Исследование: как методы оптимизации ИИ-агентов ведут себя при длительном обучении Исследователи проанализировали, как методы оптимизации ИИ-агентов работают в условиях непрерывного обучения. Большинство текущих подходов тестируются на статичных бенчмарках, что не отражает реальную эксплуатацию, где агенты сталкиваются с новыми задачами и ошибками. Работа показывает, что накопление оптимизаций не всегда приводит к линейному росту производительности, выявляя критические проблемы стабильности при рекурсивном применении методов. arXiv · Обучение и дообучение Исследование: почему ИИ-репетиторы не работают так, как ожидается Исследователи из MIT и Стэнфорда опубликовали работу, в которой ставят под сомнение эффективность современных ИИ-репетиторов. Проблема в том, что текущие методы оценки и обучения таких систем основаны на предположении, что студенты будут активно взаимодействовать с ИИ-репетитором, следуя его подсказкам и шагам. Однако в реальном мире это происходит далеко не всегда. arXiv · Другое Как идентифицировать поведение ИИ-агентов через их «отпечатки» Исследователи из Arxiv представили новый подход к анализу поведения ИИ-агентов, который позволяет выявлять их уникальные «отпечатки» — паттерны, по которым можно идентифицировать, как агент решает задачи. В отличие от традиционных бенчмарков, которые показывают только конечный результат, этот метод фокусируется на процессе принятия решений.

← Все материалы