Исследователи представили L3Cube-MahaPOS — специализированный набор данных для морфологической разметки (POS-tagging) языка маратхи, на котором обучались новые модели семейства BERT. Проект направлен на устранение дефицита ресурсов для одного из самых распространенных языков мира, на котором говорят более 83 миллионов человек, что критически важно для развития машинного перевода и анализа синтаксиса.

Маратхи обладает сложной морфологической структурой, что создает значительные трудности для стандартных NLP-инструментов, обученных на английском или других высокоресурсных языках. Новый датасет включает размеченные тексты, которые позволяют моделям точнее определять части речи в контексте, что является фундаментом для более сложных задач извлечения информации и автоматической обработки естественного языка.

Разработчики предоставили не только размеченный корпус, но и предобученные веса моделей, адаптированных под специфику грамматики маратхи. Это решение позволяет исследователям и инженерам использовать готовые инструменты для создания прикладных систем, таких как поисковые движки, чат-боты и системы анализа тональности, ориентированные на носителей языка.

Ключевые факты

  • Язык маратхи входит в топ-20 самых распространенных языков мира с аудиторией более 83 млн человек.
  • Датасет L3Cube-MahaPOS предназначен для решения задачи POS-tagging (определение частей речи).
  • В рамках проекта представлены специализированные модели на базе архитектуры BERT.
  • Ресурс направлен на преодоление проблемы нехватки данных для низкоресурсных языков в области NLP.