DocETL — это новый фреймворк от исследователей из Калифорнийского университета в Беркли, предназначенный для автоматизации сложных задач обработки данных с помощью LLM. Система использует декларативный подход, позволяя пользователям описывать трансформации данных через YAML-конфигурации, после чего агентная логика автоматически оптимизирует выполнение операций Map-Reduce для извлечения, очистки и структурирования информации из больших массивов документов.

Инструмент решает проблему неэффективности стандартных конвейеров при работе с неструктурированным текстом. Вместо написания императивного кода для каждого этапа обработки, разработчики определяют высокоуровневые операции, такие как «извлечение сущностей» или «классификация». DocETL самостоятельно разбивает задачу на подзадачи, управляет вызовами моделей и применяет методы кэширования и повторных попыток для повышения точности и снижения затрат на токены.

Архитектура системы включает оптимизатор, который анализирует граф операций и выбирает наиболее эффективный путь выполнения, минимизируя количество обращений к API. Это позволяет масштабировать обработку документов, сохраняя при этом контроль над качеством вывода, что критически важно для задач анализа корпоративных архивов, научных статей или юридической документации.

Ключевые факты

  • Разработчик: исследователи из лаборатории EPIC при Калифорнийском университете в Беркли.
  • Основной подход: декларативное описание трансформаций данных через YAML-файлы.
  • Механика: автоматическая декомпозиция задач на Map-Reduce операции с использованием LLM.
  • Оптимизация: встроенные механизмы кэширования и стратегии минимизации затрат на инференс.
  • Применение: автоматизированная очистка, структурирование и анализ больших объемов неструктурированных текстовых данных.