arXiv · 23.06.2026 ·Оценка и бенчмарки

Исследование: проблема избыточных отказов малых LLM в юридической сфере

Исследователи проанализировали поведение компактных локальных языковых моделей при работе с юридическими запросами. Выяснилось, что небольшие модели склонны к «избыточным отказам» (overrefusal) в контексте уголовного права, даже когда запрос не нарушает этических норм. Это создает риски для профессионалов, использующих ИИ для рутинных задач, таких как перевод или переформулирование документов, из-за непредсказуемой избирательности систем.

Авторы работы подчеркивают, что проблема особенно актуальна для on-premises решений, которые внедряются в юридических фирмах для обеспечения конфиденциальности данных. В отличие от крупных проприетарных моделей, малые системы чаще интерпретируют нейтральные юридические кейсы как потенциально опасные или чувствительные, что приводит к блокировке полезных ответов. Подобное поведение снижает эффективность рабочих процессов и может приводить к искажению правовой аналитики.

Для оценки масштаба проблемы ученые разработали специализированный набор данных, имитирующий реальные сценарии уголовного судопроизводства. Результаты показывают, что даже при отсутствии прямого нарушения правил безопасности, модели демонстрируют высокую частоту ложноположительных срабатываний фильтров. Это требует пересмотра подходов к дообучению и настройке систем безопасности (alignment) для узкоспециализированных отраслевых инструментов.

Ключевые факты

Малые локальные LLM демонстрируют значительно более высокий уровень необоснованных отказов по сравнению с крупными облачными моделями при обработке юридических текстов.
Основной причиной сбоев является чрезмерная чувствительность фильтров безопасности к терминам, связанным с уголовным правом, даже в нейтральном контексте.
Исследование подтверждает, что текущие методы алайнмента для моделей общего назначения плохо адаптированы для профессиональной юридической среды.
Избыточные отказы создают риски для автоматизации рутинных задач, таких как перевод и структурирование данных, замедляя работу юристов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Исследование ограничений LLM как универсальных решателей задач Авторы новой научной работы из arXiv ставят под сомнение статус больших языковых моделей (LLM) как полноценных универсальных решателей задач. Основной аргумент заключается в том, что естественный язык является сжатым и ограниченным по емкости интерфейсом для передачи инструкций. Это создает фундаментальный барьер при попытке передать модели сложную задачу через промпт. Hacker News · Прогнозы и тренды Разрыв в надежности ИИ: почему текущие модели не готовы к критическим задачам Современные большие языковые модели демонстрируют впечатляющие способности к генерации текста, однако сталкиваются с серьезным «разрывом в надежности» при выполнении задач, требующих высокой точности. Исследование подчеркивает, что отсутствие детерминизма и склонность к галлюцинациям делают текущие архитектуры непригодными для критически важных бизнес-процессов, где цена ошибки превышает допустимые риски автоматизации. arXiv · ИИ в бизнесе Проблемы тестирования LLM-приложений в реальных условиях Исследователи проанализировали работу ИИ-ассистента для поиска недвижимости, который объединяет работу больших языковых моделей, поддержку нескольких международных рынков и динамический фронтенд. Несмотря на наличие автоматизированного набора из 1553 тестов, которые успешно проходили проверку, пользователи продолжали сталкиваться с критическими ошибками в интерфейсе. Это выявило разрыв между технической «зеленой зоной» тестов и реальным поведением системы в условиях непредсказуемых внешних данных. Hacker News · Исследования и наука Почему LLM теряют точность при выполнении длинных циклических задач Исследование выявило критическую проблему в работе больших языковых моделей при выполнении многошаговых итеративных процессов. С увеличением количества циклов вероятность ошибки возрастает экспоненциально из-за накопления отклонений от заданного протокола. Автор анализа вводит понятие «периода полураспада соблюдения протокола», объясняя, почему даже продвинутые модели склонны к деградации логики при выполнении длинных последовательностей действий. arXiv · Исследования и наука Исследование: риски использования LLM в поиске причинно-следственных связей Новая научная работа анализирует эффективность использования больших языковых моделей для задач поиска причинно-следственных связей (causal discovery). Исследователи изучили подходы, при которых модели просят определять направления связей, предлагать структуру графов или использовать их выводы в качестве априорных ограничений для статистических алгоритмов. Основной вывод заключается в том, что текущие методы часто подменяют строгий анализ данных простыми текстовыми ассоциациями, заложенными в веса моделей. arXiv · Безопасность и алайнмент Исследование: способность LLM распознавать атаки через префиллы Исследователи проанализировали способность больших языковых моделей к саморефлексии в контексте безопасности. В ходе эксперимента проверялось, могут ли модели самостоятельно определять, что их ответ был скомпрометирован в результате атаки через «враждебный префилл» (adversarial prefill). В тестировании участвовали десять моделей с открытыми весами объемом от 3 до 70 миллиардов параметров, а также четыре специализированных бенчмарка безопасности. Hacker News · Исследования и наука Исследование: как LLMs справляются с юридическими рассуждениями Учёные из Стэнфорда и MIT провели исследование, посвящённое способности языковых моделей (LLMs) решать юридические задачи и автоматически формализовать правовые тексты. В работе, опубликованной на arXiv, авторы оценили точность и последовательность моделей в интерпретации законов и применении их к конкретным случаям. Hacker News · Исследования и наука Мелани Митчелл о непредсказуемости современных LLM Профессор Мелани Митчелл в своей статье для Yale Review анализирует феномен «зубчатого интеллекта» (jagged intelligence) у современных языковых моделей. Автор отмечает, что ИИ демонстрирует крайне неравномерные способности: системы могут блестяще справляться со сложными логическими задачами или написанием кода, но при этом совершать элементарные ошибки в простых вопросах, требующих здравого смысла или понимания физического мира. Hacker News · Оценка и бенчмарки Проблемы использования LLM в качестве судей для оценки ИИ-агентов Современные подходы к тестированию ИИ-агентов все чаще полагаются на автоматизированную оценку с помощью других языковых моделей, так называемых «LLM-as-a-judge». Однако практика показывает, что такие судьи склонны к предвзятости и поверхностному анализу. В ходе экспериментов исследователи обнаружили, что модели-судьи могут выставлять высокие баллы ответам агентов, даже если те не выполнили ключевые действия — например, не открыли необходимый для решения задачи файл. Hacker News · Исследования и наука Исследование: насколько можно доверять LLM при анализе данных (EDA) Исследователи проанализировали применимость больших языковых моделей для проведения разведочного анализа данных (EDA). В работе оценивается способность ИИ-агентов самостоятельно выполнять стандартные этапы работы с датасетами: от первичной очистки и выявления пропусков до построения статистических гипотез и визуализации распределений. Авторы статьи сфокусировались на том, насколько точно модели интерпретируют структуру табличных данных и избегают галлюцинаций при генерации кода для анализа.

← Все материалы