arXiv · 17.06.2026 ·Машинное обучение

Датасет Urdu Katib для распознавания рукописного текста на урду

Исследователи представили Urdu Katib — новый специализированный датасет для обучения систем распознавания рукописного текста (HTR) на языке урду. Работа направлена на преодоление дефицита данных для языков с курсивным начертанием, которые традиционно считаются сложными для автоматической обработки из-за особенностей соединения символов и высокой вариативности почерка.

В состав датасета вошли оцифрованные исторические документы, что позволяет моделям лучше адаптироваться к реальным условиям работы с архивными материалами. Помимо самого набора данных, авторы предложили базовую архитектуру на основе сверточно-рекуррентных нейронных сетей (CRNN). Эта модель служит отправной точкой для оценки точности распознавания и дальнейшего развития алгоритмов обработки сложных рукописных скриптов.

Создание подобных специализированных наборов данных является важным шагом для развития технологий компьютерного зрения и обработки естественного языка в регионах, где использование латиницы ограничено. Результаты тестирования базовой модели на Urdu Katib демонстрируют потенциал применения глубокого обучения для оцифровки культурного наследия и автоматизации работы с рукописными архивами на урду.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Persian Pixel: новый синтетический датасет для развития OCR в персидском языке Исследователи представили Persian Pixel — масштабный синтетический датасет, предназначенный для обучения систем оптического распознавания символов (OCR) на персидском языке. Проект решает проблему нехватки качественных размеченных данных, с которой сталкиваются разработчики при работе со сложной персидско-арабской письменностью, что значительно отстает по уровню автоматизации от латинских систем письма. arXiv · Машинное обучение Автоматизация дешифровки клинописи с помощью компьютерного зрения Исследователи представили новый пайплайн для автоматического распознавания клинописных знаков на глиняных табличках. Проект решает проблему нехватки данных в ассириологии: из полумиллиона найденных артефактов эксперты успели проанализировать лишь малую часть из-за сложности ручной расшифровки. Разработанный метод использует крупнейший на сегодняшний день размеченный датасет клинописных символов для обучения моделей компьютерного зрения. arXiv · Машинное обучение Мультиэкспертная маршрутизация для распознавания редких исторических текстов Исследователи представили метод мультиэкспертной маршрутизации для задач OCR в условиях дефицита данных, применив его к маньчжурской письменности. Система использует чекпоинты итеративного дообучения в качестве узкоспециализированных экспертов, а легкий классификатор на уровне страницы направляет изображения к нужной модели. Это позволяет эффективно обрабатывать визуально различающиеся стили письма, такие как устав, скоропись и дворцовый канцелярский почерк. arXiv · Оценка и бенчмарки Стресс-тест OCR-моделей на текстах на языке деванагари Исследователи провели комплексное тестирование десяти систем распознавания текста, включая классические OCR-движки, специализированные OCR-VLM и мультимодальные LLM, на материалах на языке деванагари (хинди). Работа выявила значительный разрыв в качестве обработки индийских скриптов по сравнению с английским и китайским языками, а также предложила методы пост-коррекции для повышения точности распознавания сложных документов. arXiv · Машинное обучение ROMEVA: новый метод адаптации словарей для языков с низкой представленностью Исследователи представили метод ROMEVA (Roman Urdu Embedding-preserving Vocabulary Adaptation), направленный на улучшение работы мультиязычных моделей с языками, имеющими нестабильную морфологию и написание. В качестве примера авторы рассматривают романский урду — язык, где отсутствие единых стандартов орфографии приводит к избыточной фрагментации токенов. В стандартных моделях вроде mBERT это создает проблему, при которой один токен разбивается в среднем на 1,5 подслова, что снижает эффективность обработки текста. GitHub · Машинное обучение Baidu представила Unlimited OCR для обработки длинных документов Компания Baidu выпустила проект Unlimited OCR, направленный на решение проблемы распознавания текста в документах с большой протяженностью и сложной структурой. Технология ориентирована на переход к парадигме one-shot обучения, что позволяет моделям эффективно обрабатывать длинные последовательности данных без необходимости многократных итераций или сложной предварительной разметки. Hacker News · Безопасность и алайнмент Новый метод защиты контента от парсинга ИИ через отравленные шрифты Разработчики представили инструмент Glaze-подобного типа, который защищает текстовый контент от несанкционированного обучения ИИ-моделей. Технология использует специально модифицированные шрифты, которые визуально остаются читаемыми для людей, но при попытке автоматизированного парсинга и распознавания текста (OCR) выдают искаженные данные, делая собранный датасет непригодным для качественного обучения нейросетей. Hacker News · Исследования и наука Применение ИИ для расшифровки древних языков Исследователи применяют методы машинного обучения для дешифровки древних письменностей, которые веками оставались загадкой для лингвистов. Использование нейросетевых моделей позволяет анализировать закономерности в структуре знаков и сопоставлять их с известными языковыми семьями. Этот подход открывает новые возможности для восстановления утраченных текстов и понимания культурных контекстов цивилизаций, чьи записи ранее считались нечитаемыми из-за отсутствия ключей к переводу. arXiv · Машинное обучение Новый датасет для обнаружения кибератак с метками ATT&CK Исследователи представили новый датасет для обнаружения многоэтапных кибератак, который включает логи систем, сетей и браузеров. Существующие публичные датасеты, такие как CICIDS и UNSW-NB15, охватывают только сетевую активность, в то время как другие, например LMDG, фокусируются на хост-активности. arXiv · Обучение и дообучение Новый датасет для улучшения аудио-языковых моделей Исследователи представили AudioDER — новый датасет, предназначенный для улучшения способностей аудио-языковых моделей (LALMs) к сложному аудио-рассуждению. LALMs уже демонстрируют высокие результаты в различных задачах понимания аудио, но их возможности в области сложного анализа и интерпретации звуковых данных остаются ограниченными.

← Все материалы