Исследователи представили FunnyBench — специализированный набор данных и методологию для оценки способности больших языковых моделей понимать и генерировать юмор. В отличие от стандартных тестов на логику или программирование, этот бенчмарк фокусируется на когнитивных аспектах комического: распознавании иронии, сарказма, каламбуров и неожиданных сюжетных поворотов, которые лежат в основе человеческого смеха.
Тестирование включает в себя несколько категорий задач, где модели должны не только объяснить, почему шутка является смешной, но и самостоятельно создавать контент, соответствующий заданным стилистическим параметрам юмора. Разработчики бенчмарка отмечают, что текущие модели часто справляются с формальными структурами языка, но испытывают трудности с контекстуальной глубиной и культурными нюансами, необходимыми для качественного комического эффекта.
Результаты FunnyBench показывают значительный разрыв между топовыми проприетарными моделями и открытыми решениями в задачах на креативность и абстрактное мышление. Этот инструмент позволяет глубже изучить границы «эмоционального» интеллекта нейросетей и их способность к моделированию сложных социальных взаимодействий, где юмор выступает важным индикатором понимания человеческой психологии.