Компания Baidu разработала систему Unlimited OCR, способную обрабатывать десятки страниц документа за один проход. Инновация заключается в модифицированном механизме внимания, который поддерживает стабильный уровень потребления памяти независимо от объема входных данных. Технология уже заняла лидирующую позицию в профильных бенчмарках, значительно превосходя традиционные системы, ограниченные обработкой около десяти страниц.
Ключевым архитектурным решением стало внедрение принципа «забывания», аналогичного человеческой памяти. В отличие от стандартных моделей, которые требуют линейного увеличения вычислительных ресурсов при росте количества страниц, новая архитектура эффективно отсеивает избыточную информацию. Это позволяет системе сохранять высокую точность распознавания текста даже в многостраничных отчетах и сложных технических документах.
Разработка решает одну из главных проблем современных OCR-систем — нехватку контекстной памяти при анализе длинных файлов. Благодаря оптимизации внимания модель не перегружается при обработке больших объемов данных, что открывает возможности для автоматизации документооборота в корпоративном секторе, где требуется анализ сотен страниц в рамках одного процесса.
Ключевые факты
- Технология Unlimited OCR позволяет обрабатывать десятки страниц документа за один проход.
- Модифицированный механизм внимания обеспечивает фиксированное потребление памяти при увеличении длины входного текста.
- Система занимает первое место в ключевых отраслевых бенчмарках по распознаванию текста.
- Метод основан на имитации процесса «забывания» для управления контекстной памятью модели.
