Исследователи представили метод определения порядка чтения в сложных документах, таких как исторические рукописи с нелинейной версткой. Решение позволяет восстанавливать последовательность текста в макетах с комментариями, обтекающими основной блок по непрямоугольным траекториям. Подход не требует дополнительного обучения моделей, опираясь на графовые алгоритмы для анализа пространственных связей между текстовыми блоками и их логической структурой.

Проблема корректной интерпретации порядка чтения является критическим барьером при оцифровке архивных материалов и сложных печатных изданий. Традиционные OCR-системы часто ошибаются при обработке «Глоссы Ординарии» и других форматов, где комментарии физически прерывают основной поток текста. Новый фреймворк решает эту задачу, рассматривая страницу как граф, где узлы представляют текстовые сегменты, а ребра — вероятные логические переходы между ними.

Алгоритм эффективно справляется с невыпуклыми регионами и сложным наложением элементов, которые ранее требовали ручной разметки или специфического дообучения нейросетей. Это открывает возможности для автоматизации обработки сложных документов в задачах RAG-систем, где точность извлечения контекста напрямую зависит от правильной последовательности подачи данных в модель.

Ключевые факты

  • Метод основан на графовом представлении документа, что исключает необходимость в обучении на размеченных датасетах.
  • Алгоритм успешно обрабатывает непрямоугольные и невыпуклые области, характерные для средневековых рукописей и сложной научной верстки.
  • Решение устраняет критический «бутылочное горлышко» в оцифровке, где традиционные методы анализа макета показывают низкую точность.
  • Подход применим для улучшения качества подготовки данных в системах извлечения знаний из сложных PDF-файлов и исторических архивов.