Компания Baidu выпустила проект Unlimited OCR, направленный на решение проблемы распознавания текста в документах с большой протяженностью и сложной структурой. Технология ориентирована на переход к парадигме one-shot обучения, что позволяет моделям эффективно обрабатывать длинные последовательности данных без необходимости многократных итераций или сложной предварительной разметки.

Основная задача разработки — преодоление ограничений стандартных OCR-систем, которые часто теряют контекст или допускают ошибки при анализе многостраничных отчетов, технических спецификаций и рукописных документов с нестандартным расположением элементов. Подход опирается на архитектуру, способную удерживать внимание на всей длине документа, что критически важно для автоматизации документооборота в корпоративном секторе.

Инструмент позволяет значительно сократить время на подготовку данных для систем машинного обучения, автоматизируя извлечение структурированной информации из неструктурированных источников. Это решение упрощает интеграцию визуальных данных в RAG-системы и другие агентные пайплайны, где точность распознавания текста напрямую влияет на качество ответов языковых моделей.