Исследователи из arXiv выявили пробел в оценке способностей ИИ-моделей выполнять юридическое мышление. Существующие бенчмарки фокусируются на вспомогательных задачах, а не на интерпретации правовых норм, что критически важно для применения ИИ в юриспруденции.
Авторы отмечают, что крупные языковые модели уже генерируют юридические тексты хотя бы среднего качества. Однако отсутствие стандартизированных методов оценки затрудняет их использование в профессиональной деятельности.
Особую актуальность проблема приобретает на фоне вступления в силу EU AI Act, который требует соответствия ИИ-систем определённым стандартам. Исследование подчёркивает необходимость разработки новых метрик для оценки способности ИИ выполнять сложные юридические задачи.
Авторы предлагают создать специализированные бенчмарки, которые бы учитывали особенности правовой интерпретации и соответствовали требованиям регуляторов. Это позволит не только улучшить качество юридических ИИ-ассистентов, но и обеспечить их соответствие законодательным нормам.