Учёные представили методологию для систематической цифровизации и кодирования арабско-английского словаря Al-Mawrid. Исследование преобразует печатный ресурс в стандартизированный вычислительный словарь, заполняя пробел в арабской лексической инфраструктуре.
Авторы использовали двойной стандарт: ISO Lexical Markup Framework (LMF) и Text Encoding Initiative (TEI) Lex-0. Это позволяет структурировать данные для дальнейшего использования в ИИ и лингвистических системах.
Работа направлена на улучшение доступа к арабским языковым данным и их интеграцию в современные технологии. Это важно для развития ИИ, способного работать с арабским языком, и для автоматизации перевода.
Исследование опубликовано на arXiv и доступно по ссылке: https://arxiv.org/abs/2606.18205v1.