MarkTechPost · 23.06.2026 ·Модели и релизы

Datalab представила lift: 9B-модель для извлечения структурированных данных из PDF

Компания Datalab выпустила lift — открытую мультимодальную модель с 9 миллиардами параметров, предназначенную для преобразования PDF-документов и изображений в структурированный JSON. Инструмент использует схематически ограниченное декодирование и механизм обучения воздержанию от ответов, что позволяет модели возвращать пустые значения вместо генерации галлюцинаций при отсутствии данных в исходном файле.

Основная задача модели — автоматизация обработки документов, где критически важна точность извлечения полей. В отличие от стандартных LLM, lift жестко придерживается заданных пользователем схем, что гарантирует валидность выходного формата. Это упрощает интеграцию модели в существующие ETL-пайплайны и системы обработки данных, требующие строгой типизации и предсказуемого поведения на входе.

Технология опирается на специализированное обучение, которое минимизирует ошибки интерпретации визуальных данных. Модель демонстрирует высокую эффективность в задачах, где требуется извлечение специфических атрибутов из таблиц, форм и счетов, обеспечивая стабильную работу даже с документами сложной верстки.

Ключевые факты

Модель lift содержит 9 миллиардов параметров и распространяется с открытыми весами.
Точность извлечения полей достигает 90,2% согласно внутреннему бенчмарку на 225 документах.
Использование схемы при декодировании исключает ошибки структуры JSON.
Механизм «обученного воздержания» позволяет модели возвращать null, если поле отсутствует в документе, предотвращая галлюцинации.

Источник: MarkTechPost

Похожие материалы

Hacker News · Другое PDF-анализ как узкое место в ИИ-агентах Обработка PDF-документов остаётся одной из ключевых проблем в разработке ИИ-агентов. PDF-формат, несмотря на свою распространённость, плохо поддаётся автоматизированному анализу из-за сложной структуры и отсутствия стандартизированных методов извлечения данных. Это создаёт серьёзные трудности для агентов, которым необходимо работать с документами, отчётами и другими текстовыми материалами в формате PDF. MarkTechPost · Инфраструктура для агентов Docling Parse для извлечения структуры из PDF В статье подробно разбирается процесс создания парсинг-конвейера для анализа PDF-документов с помощью Docling Parse. Это решение позволяет извлекать структурированные данные из документов с разметкой, включая текст, таблицы, изображения и векторные элементы. Для разработчиков ИИ-агентов, работающих с документами, это важно, так как позволяет автоматизировать обработку сложных PDF-файлов. Hacker News · Другое AI может читать PDF иначе, чем пользователи Исследователи обнаружили, что ИИ-модели могут интерпретировать PDF-документы по-разному по сравнению с пользователями. Это связано с тем, что модели обрабатывают текст, извлечённый из PDF, без учёта форматирования и структуры, что может приводить к ошибкам в восприятии информации. Mistral AI Blog · Инфраструктура для агентов Mistral представила специализированную модель OCR 4 для обработки документов Компания Mistral AI выпустила Mistral OCR 4 — специализированную модель, предназначенную для высокоточного извлечения данных из сложных документов. Решение поддерживает 170 языков и способно распознавать не только текст, но и структуру страниц, включая таблицы, графики и формулы. Важной особенностью модели является возможность определения координат (bounding boxes) для каждого распознанного элемента, что критически важно для автоматизации бизнес-процессов и интеграции с системами документооборота. Hacker News · Модели и релизы Новая открытая модель GLM-5.2 превосходит проприетарные аналоги в задачах программирования Разработчики представили открытую языковую модель GLM-5.2, которая демонстрирует результаты в написании кода, превышающие показатели текущих флагманских решений от OpenAI. Согласно опубликованным бенчмаркам, модель показывает более высокую точность в решении алгоритмических задач и генерации функциональных скриптов, при этом стоимость её инференса составляет лишь 1/6 от затрат на использование закрытых моделей аналогичного класса. arXiv · Исследования и наука Малые языковые модели догнали гигантов в задачах извлечения отношений Исследователи проанализировали возможности компактных языковых моделей (SLM) в задачах извлечения отношений (Relation Extraction) из текстов. В фокусе внимания оказались модели с количеством параметров от 360 миллионов до 3 миллиардов. Результаты показывают, что такие системы способны демонстрировать производительность, сопоставимую с крупными моделями (LLM) уровня frontier, работая при этом в режиме zero-shot. MarkTechPost · Машинное обучение Liquid AI представила компактные модели для многоязычного поиска Компания Liquid AI выпустила новые модели LFM2.5-Embedding-350M и LFM2.5-ColBERT-350M, предназначенные для эффективного семантического поиска. Решения базируются на архитектуре с 350 миллионами параметров и оптимизированы для работы на периферийных устройствах, что позволяет использовать их локально без обращения к облачным серверам. GitHub · Машинное обучение Baidu представила Unlimited OCR для обработки длинных документов Компания Baidu выпустила проект Unlimited OCR, направленный на решение проблемы распознавания текста в документах с большой протяженностью и сложной структурой. Технология ориентирована на переход к парадигме one-shot обучения, что позволяет моделям эффективно обрабатывать длинные последовательности данных без необходимости многократных итераций или сложной предварительной разметки. arXiv · Модели и релизы Как улучшить точность небольших моделей кода без переобучения Исследователи из DeepSeek и других организаций представили новый подход к повышению точности небольших моделей кода без необходимости их переобучения. В работе рассматриваются так называемые «замороженные» модели кода (с параметрами ≤45 миллионов), которые не поддаются стандартным методам улучшения качества вывода. Simon Willison's Weblog · Модели и релизы Выпущена открытая LLM GLM-5.2 с 753 миллиардами параметров Китайская лаборатория Z.ai представила модель GLM-5.2, которая на текущий момент претендует на звание самой мощной текстовой языковой модели с открытыми весами. Релиз состоялся спустя несколько дней после ограниченного доступа для подписчиков, и теперь веса модели доступны под лицензией MIT. Архитектура новинки основана на принципе Mixture of Experts (MoE), что позволяет эффективно использовать ресурсы при колоссальном объеме параметров.

← Все материалы