Компания Baidu разработала систему Unlimited OCR, способную обрабатывать десятки страниц документа за один проход. Инновация заключается в модифицированном механизме внимания, который поддерживает стабильный уровень потребления памяти независимо от объема входных данных. Технология уже заняла лидирующую позицию в профильных бенчмарках, значительно превосходя традиционные системы, ограниченные обработкой около десяти страниц.

Ключевым архитектурным решением стало внедрение принципа «забывания», аналогичного человеческой памяти. В отличие от стандартных моделей, которые требуют линейного увеличения вычислительных ресурсов при росте количества страниц, новая архитектура эффективно отсеивает избыточную информацию. Это позволяет системе сохранять высокую точность распознавания текста даже в многостраничных отчетах и сложных технических документах.

Разработка решает одну из главных проблем современных OCR-систем — нехватку контекстной памяти при анализе длинных файлов. Благодаря оптимизации внимания модель не перегружается при обработке больших объемов данных, что открывает возможности для автоматизации документооборота в корпоративном секторе, где требуется анализ сотен страниц в рамках одного процесса.

Ключевые факты

  • Технология Unlimited OCR позволяет обрабатывать десятки страниц документа за один проход.
  • Модифицированный механизм внимания обеспечивает фиксированное потребление памяти при увеличении длины входного текста.
  • Система занимает первое место в ключевых отраслевых бенчмарках по распознаванию текста.
  • Метод основан на имитации процесса «забывания» для управления контекстной памятью модели.