Исследователи проанализировали поведение компактных локальных языковых моделей при работе с юридическими запросами. Выяснилось, что небольшие модели склонны к «избыточным отказам» (overrefusal) в контексте уголовного права, даже когда запрос не нарушает этических норм. Это создает риски для профессионалов, использующих ИИ для рутинных задач, таких как перевод или переформулирование документов, из-за непредсказуемой избирательности систем.
Авторы работы подчеркивают, что проблема особенно актуальна для on-premises решений, которые внедряются в юридических фирмах для обеспечения конфиденциальности данных. В отличие от крупных проприетарных моделей, малые системы чаще интерпретируют нейтральные юридические кейсы как потенциально опасные или чувствительные, что приводит к блокировке полезных ответов. Подобное поведение снижает эффективность рабочих процессов и может приводить к искажению правовой аналитики.
Для оценки масштаба проблемы ученые разработали специализированный набор данных, имитирующий реальные сценарии уголовного судопроизводства. Результаты показывают, что даже при отсутствии прямого нарушения правил безопасности, модели демонстрируют высокую частоту ложноположительных срабатываний фильтров. Это требует пересмотра подходов к дообучению и настройке систем безопасности (alignment) для узкоспециализированных отраслевых инструментов.
Ключевые факты
- Малые локальные LLM демонстрируют значительно более высокий уровень необоснованных отказов по сравнению с крупными облачными моделями при обработке юридических текстов.
- Основной причиной сбоев является чрезмерная чувствительность фильтров безопасности к терминам, связанным с уголовным правом, даже в нейтральном контексте.
- Исследование подтверждает, что текущие методы алайнмента для моделей общего назначения плохо адаптированы для профессиональной юридической среды.
- Избыточные отказы создают риски для автоматизации рутинных задач, таких как перевод и структурирование данных, замедляя работу юристов.