Исследователи представили метод ROMEVA (Roman Urdu Embedding-preserving Vocabulary Adaptation), направленный на улучшение работы мультиязычных моделей с языками, имеющими нестабильную морфологию и написание. В качестве примера авторы рассматривают романский урду — язык, где отсутствие единых стандартов орфографии приводит к избыточной фрагментации токенов. В стандартных моделях вроде mBERT это создает проблему, при которой один токен разбивается в среднем на 1,5 подслова, что снижает эффективность обработки текста.

Предложенный подход позволяет расширять словарь модели, сохраняя при этом семантическую целостность векторных представлений. ROMEVA комбинирует техники адаптации эмбеддингов с оптимизацией токенизации, что позволяет модели лучше адаптироваться к специфическим особенностям языка без необходимости полного переобучения с нуля. Это значительно снижает вычислительные затраты при дообучении предобученных моделей для работы с редкими или нестандартными языковыми формами.

Результаты тестирования показывают, что метод эффективно решает проблему фрагментации, повышая точность обработки текстов на романском урду в задачах классификации и извлечения информации. Данная методология может быть масштабирована на другие языки с похожими характеристиками, где вариативность написания препятствует качественной работе стандартных токенизаторов. Работа открывает новые возможности для развития NLP-решений в регионах, где языковые ресурсы ограничены или представлены в неформализованном виде.