Исследователи представили новый бенчмарк TAC, который оценивает способность ИИ-агентов учитывать благополучие животных при выполнении задач. В отличие от существующих тестов, которые проверяют только текстовые ответы, TAC фокусируется на реальных действиях агентов, таких как бронирование путешествий или планирование мероприятий.

Авторы отмечают, что ИИ-агенты всё чаще переходят от роли советников к исполнителям, принимая решения и действуя от имени пользователей. Это требует новых методов оценки, которые учитывают не только теоретические знания, но и практические последствия.

В рамках бенчмарка агентов проверяют на способность избегать действий, которые могут навредить животным. Например, при бронировании путешествия агент должен учитывать экологические и этические аспекты, такие как запрет на посещение зоопарков или участие в корриде.

Исследование подчёркивает важность интеграции принципов благополучия животных в работу ИИ-агентов, особенно в контексте их всё более активного использования в повседневной жизни.