Исследователи представили LOCUS-v1 — масштабный открытый датасет, содержащий более 2,2 миллиона текстов муниципальных законов и нормативных актов. Этот ресурс предназначен для обучения и дообучения языковых моделей, специализирующихся на анализе юридической документации, поиске правовой информации и автоматизации работы с региональными нормами, которые ранее были труднодоступны для машинной обработки в едином формате.

Набор данных охватывает широкий спектр локальных постановлений, что позволяет разработчикам создавать специализированные RAG-системы и агентные решения для юридического сектора. Использование таких данных критически важно для повышения точности моделей при работе с узкоспециализированным контекстом, где общие знания LLM часто оказываются недостаточными или неактуальными. Структурированность датасета упрощает интеграцию в пайплайны обработки естественного языка.

Публикация LOCUS-v1 закрывает значительный пробел в доступности качественных юридических корпусов текстов, ориентированных на низовой уровень законодательства. Это открывает возможности для создания инструментов, способных анализировать противоречия между местными актами и федеральным законодательством, а также для автоматизации комплаенс-процедур в различных отраслях бизнеса, работающих с локальными регуляциями.

Ключевые факты

  • Общий объем датасета составляет 2,2 миллиона документов.
  • Данные включают тексты локальных законов, постановлений и муниципальных ордонансов.
  • Датасет доступен для свободного использования на платформе Hugging Face.
  • Ресурс предназначен для задач Fine-tuning, RAG и обучения специализированных юридических моделей.