Исследователи представили FMG-Bench — специализированный набор данных и методологию для оценки способности больших языковых моделей выступать в роли духовных наставников. Инструмент предназначен для проверки того, насколько корректно и этично ИИ справляется с теологическими вопросами и предоставлением пастырских рекомендаций в сложных жизненных ситуациях.
Бенчмарк включает в себя классификацию запросов по уровню сложности и соответствию догматическим нормам. Тестирование охватывает способность моделей распознавать контекст, проявлять эмпатию и избегать вредных советов при работе с пользователями, находящимися в состоянии эмоционального или духовного кризиса. Особое внимание уделяется точности интерпретации религиозных текстов и соблюдению границ профессиональной этики при имитации консультативной деятельности.
Результаты исследования показывают значительные различия в качестве ответов между современными архитектурами моделей, особенно в задачах, требующих глубокого понимания теологических нюансов. Разработчики FMG-Bench подчеркивают, что использование ИИ в столь чувствительных сферах требует строгих механизмов контроля, так как ошибки в интерпретации или неверный тон могут иметь серьезные последствия для пользователей. Данная работа задает стандарты для оценки безопасности и надежности специализированных ИИ-систем, работающих с человеческим мировоззрением и психологическим состоянием.