Hacker News · 02.07.2026 ·Инфраструктура для агентов

DocETL: декларативный фреймворк для обработки неструктурированных данных

DocETL — это новый фреймворк от исследователей из Калифорнийского университета в Беркли, предназначенный для автоматизации сложных задач обработки данных с помощью LLM. Система использует декларативный подход, позволяя пользователям описывать трансформации данных через YAML-конфигурации, после чего агентная логика автоматически оптимизирует выполнение операций Map-Reduce для извлечения, очистки и структурирования информации из больших массивов документов.

Инструмент решает проблему неэффективности стандартных конвейеров при работе с неструктурированным текстом. Вместо написания императивного кода для каждого этапа обработки, разработчики определяют высокоуровневые операции, такие как «извлечение сущностей» или «классификация». DocETL самостоятельно разбивает задачу на подзадачи, управляет вызовами моделей и применяет методы кэширования и повторных попыток для повышения точности и снижения затрат на токены.

Архитектура системы включает оптимизатор, который анализирует граф операций и выбирает наиболее эффективный путь выполнения, минимизируя количество обращений к API. Это позволяет масштабировать обработку документов, сохраняя при этом контроль над качеством вывода, что критически важно для задач анализа корпоративных архивов, научных статей или юридической документации.

Ключевые факты

Разработчик: исследователи из лаборатории EPIC при Калифорнийском университете в Беркли.
Основной подход: декларативное описание трансформаций данных через YAML-файлы.
Механика: автоматическая декомпозиция задач на Map-Reduce операции с использованием LLM.
Оптимизация: встроенные механизмы кэширования и стратегии минимизации затрат на инференс.
Применение: автоматизированная очистка, структурирование и анализ больших объемов неструктурированных текстовых данных.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Оркестрация агентов Многоагентный подход к извлечению таблиц из PDF Разработчики Unstract представили архитектуру для извлечения табличных данных из PDF-документов, основанную на разделении задачи между шестью специализированными ИИ-агентами и последующим этапом генерации кода. Такой подход позволяет преодолеть ограничения стандартных LLM при обработке сложных структур, обеспечивая высокую точность парсинга даже в документах с нестандартным форматированием и разрывами страниц. Hacker News · Память и RAG Вышел высокопроизводительный PDF-чанкер на Rust с поддержкой структуры документа Разработчики представили инструмент для обработки PDF-файлов, который выполняет сегментацию текста без использования LLM. Решение написано на чистом Rust и ориентировано на сохранение логической структуры документа, что критически важно для качественного RAG. Инструмент позволяет эффективно разбивать сложные документы на логические блоки, минимизируя затраты ресурсов и повышая точность извлечения контекста для последующей индексации в векторных базах данных. MarkTechPost · Модели и релизы Datalab представила lift: 9B-модель для извлечения структурированных данных из PDF Компания Datalab выпустила lift — открытую мультимодальную модель с 9 миллиардами параметров, предназначенную для преобразования PDF-документов и изображений в структурированный JSON. Инструмент использует схематически ограниченное декодирование и механизм обучения воздержанию от ответов, что позволяет модели возвращать пустые значения вместо генерации галлюцинаций при отсутствии данных в исходном файле. Hacker News · Инфраструктура для агентов SuperDoc: SDK для создания ИИ-агентов по работе с документами Docx SuperDoc представляет собой специализированный SDK и редактор, предназначенный для интеграции ИИ-агентов в процесс обработки документов формата Docx. Инструмент позволяет автоматизировать чтение, редактирование и генерацию сложных структур внутри файлов, предоставляя разработчикам программный интерфейс для управления контентом, стилями и разметкой, что критически важно для создания агентных систем, работающих с корпоративной документацией. MarkTechPost · Данные и инжиниринг Автоматизация извлечения структурированных данных из PDF с помощью Lift Разработан рабочий процесс для трансформации неструктурированных научных PDF-документов в структурированный JSON с использованием модели Lift. Решение фокусируется на контролируемой оценке качества извлечения данных, включая проверку полей на соответствие заданной схеме и сравнение результатов с эталонными значениями, что позволяет создавать надежные базы знаний для последующих запросов и аналитики. Hacker News · Разработка и инструменты Explicode: подход к литератному программированию с помощью LLM Проект Explicode переосмысляет концепцию литератного программирования, адаптируя её для взаимодействия с современными языковыми моделями. Инструмент позволяет разработчикам создавать исполняемый код, где документация и логика тесно переплетены, обеспечивая автоматическую генерацию и поддержку кода через LLM. Это упрощает создание сложных систем, где контекст реализации напрямую связан с текстовым описанием архитектуры. MarkTechPost · Инфраструктура для агентов Docling Parse для извлечения структуры из PDF В статье подробно разбирается процесс создания парсинг-конвейера для анализа PDF-документов с помощью Docling Parse. Это решение позволяет извлекать структурированные данные из документов с разметкой, включая текст, таблицы, изображения и векторные элементы. Для разработчиков ИИ-агентов, работающих с документами, это важно, так как позволяет автоматизировать обработку сложных PDF-файлов. Hacker News · Оркестрация агентов GEDD: фреймворк для оценки LLM на основе системных доказательств Команда AWS представила GEDD (Generative Evidence Driven Decisions) — фреймворк, который позволяет использовать LLM в качестве судьи для оценки качества решений. GEDD систематически собирает и анализирует доказательства, чтобы принимать обоснованные решения. Это особенно полезно для задач, где требуется высокая степень точности и прозрачности, таких как медицинские диагнозы, юридические консультации или финансовые анализы. arXiv · ИИ в бизнесе Автоматизация инженерных спецификаций с помощью графов знаний и LLM Исследователи представили семантический ИИ-фреймворк для автоматизации создания матриц причинно-следственных связей (C&E) в промышленном управлении. Система объединяет графы знаний с большими языковыми моделями, что позволяет перевести процесс разработки инженерных спецификаций из ручного режима в автоматизированный. Это решение минимизирует человеческие ошибки и обеспечивает высокую согласованность данных при проектировании систем промышленной безопасности и контроля. Hacker News · ИИ в бизнесе Anthropic тестирует специализированное приложение Claude Science для исследователей Компания Anthropic начала тестирование узкоспециализированного приложения Claude Science, предназначенного для автоматизации научной работы. Инструмент ориентирован на исследователей и аналитиков, которым требуется глубокая обработка массивов данных, поиск закономерностей в научных публикациях и ускорение процесса подготовки отчетов. Решение подчеркивает тренд на создание вертикальных ИИ-продуктов, адаптированных под специфические профессиональные задачи.

← Все материалы