Исследователи представили Urdu Katib — новый специализированный датасет для обучения систем распознавания рукописного текста (HTR) на языке урду. Работа направлена на преодоление дефицита данных для языков с курсивным начертанием, которые традиционно считаются сложными для автоматической обработки из-за особенностей соединения символов и высокой вариативности почерка.
В состав датасета вошли оцифрованные исторические документы, что позволяет моделям лучше адаптироваться к реальным условиям работы с архивными материалами. Помимо самого набора данных, авторы предложили базовую архитектуру на основе сверточно-рекуррентных нейронных сетей (CRNN). Эта модель служит отправной точкой для оценки точности распознавания и дальнейшего развития алгоритмов обработки сложных рукописных скриптов.
Создание подобных специализированных наборов данных является важным шагом для развития технологий компьютерного зрения и обработки естественного языка в регионах, где использование латиницы ограничено. Результаты тестирования базовой модели на Urdu Katib демонстрируют потенциал применения глубокого обучения для оцифровки культурного наследия и автоматизации работы с рукописными архивами на урду.