Разработчики Unstract представили архитектуру для извлечения табличных данных из PDF-документов, основанную на разделении задачи между шестью специализированными ИИ-агентами и последующим этапом генерации кода. Такой подход позволяет преодолеть ограничения стандартных LLM при обработке сложных структур, обеспечивая высокую точность парсинга даже в документах с нестандартным форматированием и разрывами страниц.

Система использует конвейер, где каждый агент отвечает за конкретный этап: от анализа структуры документа и определения границ таблицы до нормализации данных и их преобразования в структурированный формат JSON. Использование отдельного шага генерации кода для финальной обработки данных позволяет минимизировать галлюцинации модели и гарантировать соответствие выходного результата заданной схеме.

Методология решает проблему потери контекста при работе с длинными документами, где таблицы могут занимать несколько страниц или иметь сложную вложенность. Разделение ответственности между агентами позволяет гибко настраивать каждый узел системы, повышая общую надежность извлечения данных в корпоративных сценариях автоматизации документооборота.

Ключевые факты

  • Архитектура включает 6 специализированных агентов для сегментации и обработки таблиц.
  • Финальный этап использует генерацию кода для валидации и приведения данных к целевой схеме.
  • Система ориентирована на решение проблем парсинга PDF с нестандартной версткой и многостраничными таблицами.
  • Использование многоагентной оркестрации снижает количество ошибок по сравнению с прямым промптингом одной модели.