arXiv · 01.07.2026 ·Машинное обучение

Новый графовый метод для определения порядка чтения в сложных документах

Исследователи представили метод определения порядка чтения в сложных документах, таких как исторические рукописи с нелинейной версткой. Решение позволяет восстанавливать последовательность текста в макетах с комментариями, обтекающими основной блок по непрямоугольным траекториям. Подход не требует дополнительного обучения моделей, опираясь на графовые алгоритмы для анализа пространственных связей между текстовыми блоками и их логической структурой.

Проблема корректной интерпретации порядка чтения является критическим барьером при оцифровке архивных материалов и сложных печатных изданий. Традиционные OCR-системы часто ошибаются при обработке «Глоссы Ординарии» и других форматов, где комментарии физически прерывают основной поток текста. Новый фреймворк решает эту задачу, рассматривая страницу как граф, где узлы представляют текстовые сегменты, а ребра — вероятные логические переходы между ними.

Алгоритм эффективно справляется с невыпуклыми регионами и сложным наложением элементов, которые ранее требовали ручной разметки или специфического дообучения нейросетей. Это открывает возможности для автоматизации обработки сложных документов в задачах RAG-систем, где точность извлечения контекста напрямую зависит от правильной последовательности подачи данных в модель.

Ключевые факты

Метод основан на графовом представлении документа, что исключает необходимость в обучении на размеченных датасетах.
Алгоритм успешно обрабатывает непрямоугольные и невыпуклые области, характерные для средневековых рукописей и сложной научной верстки.
Решение устраняет критический «бутылочное горлышко» в оцифровке, где традиционные методы анализа макета показывают низкую точность.
Подход применим для улучшения качества подготовки данных в системах извлечения знаний из сложных PDF-файлов и исторических архивов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы