Исследователи провели комплексное тестирование десяти систем распознавания текста, включая классические OCR-движки, специализированные OCR-VLM и мультимодальные LLM, на материалах на языке деванагари (хинди). Работа выявила значительный разрыв в качестве обработки индийских скриптов по сравнению с английским и китайским языками, а также предложила методы пост-коррекции для повышения точности распознавания сложных документов.

В ходе исследования оценивались возможности моделей по извлечению данных из документов, написанных на деванагари, которые традиционно представляют сложность для стандартных алгоритмов из-за особенностей графики и морфологии. Авторы проанализировали как открытые модели, такие как Qwen2.5-VL и olmOCR, так и специализированные решения, выявив их слабые места в интерпретации символов и контекстуальной связности текста.

Помимо бенчмаркинга, работа фокусируется на стратегии пост-коррекции, которая позволяет минимизировать ошибки распознавания после первичного прохода модели. Этот подход демонстрирует, как комбинация специализированных архитектур и последующей обработки данных может значительно улучшить качество оцифровки документов на языках с низкой представленностью в обучающих выборках глобальных моделей.

Ключевые факты

  • В тестировании приняли участие 10 систем, включая классический EasyOCR и современные мультимодальные модели Qwen2.5-VL-3B, Qwen3-VL-8B и olmOCR-7B.
  • Исследование сфокусировано на выявлении пробелов в производительности OCR-систем при работе с индийскими скриптами (деванагари).
  • Предложен метод пост-коррекции, направленный на исправление ошибок распознавания, возникающих из-за специфики графики языка хинди.
  • Работа подчеркивает необходимость расширения бенчмарков для мультимодальных моделей за пределы доминирующих мировых языков.