Исследователи провели комплексное тестирование десяти систем распознавания текста, включая классические OCR-движки, специализированные OCR-VLM и мультимодальные LLM, на материалах на языке деванагари (хинди). Работа выявила значительный разрыв в качестве обработки индийских скриптов по сравнению с английским и китайским языками, а также предложила методы пост-коррекции для повышения точности распознавания сложных документов.
В ходе исследования оценивались возможности моделей по извлечению данных из документов, написанных на деванагари, которые традиционно представляют сложность для стандартных алгоритмов из-за особенностей графики и морфологии. Авторы проанализировали как открытые модели, такие как Qwen2.5-VL и olmOCR, так и специализированные решения, выявив их слабые места в интерпретации символов и контекстуальной связности текста.
Помимо бенчмаркинга, работа фокусируется на стратегии пост-коррекции, которая позволяет минимизировать ошибки распознавания после первичного прохода модели. Этот подход демонстрирует, как комбинация специализированных архитектур и последующей обработки данных может значительно улучшить качество оцифровки документов на языках с низкой представленностью в обучающих выборках глобальных моделей.
Ключевые факты
- В тестировании приняли участие 10 систем, включая классический EasyOCR и современные мультимодальные модели Qwen2.5-VL-3B, Qwen3-VL-8B и olmOCR-7B.
- Исследование сфокусировано на выявлении пробелов в производительности OCR-систем при работе с индийскими скриптами (деванагари).
- Предложен метод пост-коррекции, направленный на исправление ошибок распознавания, возникающих из-за специфики графики языка хинди.
- Работа подчеркивает необходимость расширения бенчмарков для мультимодальных моделей за пределы доминирующих мировых языков.