Исследователи представили LOCUS — масштабный корпус данных, объединяющий локальные нормативные акты США. Ранее этот пласт правовой информации был практически недоступен для машинного обучения из-за фрагментарности источников и отсутствия единого формата. Локальные постановления регулируют ключевые аспекты повседневной жизни, включая вопросы зонирования, жилищного строительства, лицензирования бизнеса, охраны общественного здоровья и контроля за животными.

Создание структурированного набора данных решает проблему нехватки качественных материалов для обучения специализированных правовых моделей. До настоящего времени существующие юридические корпуса фокусировались преимущественно на федеральном или уровне штатов, игнорируя муниципальные правила, которые зачастую оказывают более прямое влияние на экономическую деятельность и социальные процессы. Авторы проекта разработали пайплайн для сбора, очистки и стандартизации текстов из разрозненных муниципальных систем.

Наличие такого корпуса позволяет разработчикам создавать более точные инструменты для автоматизации юридического анализа, комплаенса и консультирования. Стандартизация данных открывает возможности для обучения моделей, способных ориентироваться в специфике местного законодательства, что критически важно для автоматизации бизнес-процессов, связанных с недвижимостью, городским планированием и муниципальным управлением.