GitHub · 18.06.2026 ·Машинное обучение

Baidu представила Unlimited OCR для обработки длинных документов

Компания Baidu выпустила проект Unlimited OCR, направленный на решение проблемы распознавания текста в документах с большой протяженностью и сложной структурой. Технология ориентирована на переход к парадигме one-shot обучения, что позволяет моделям эффективно обрабатывать длинные последовательности данных без необходимости многократных итераций или сложной предварительной разметки.

Основная задача разработки — преодоление ограничений стандартных OCR-систем, которые часто теряют контекст или допускают ошибки при анализе многостраничных отчетов, технических спецификаций и рукописных документов с нестандартным расположением элементов. Подход опирается на архитектуру, способную удерживать внимание на всей длине документа, что критически важно для автоматизации документооборота в корпоративном секторе.

Инструмент позволяет значительно сократить время на подготовку данных для систем машинного обучения, автоматизируя извлечение структурированной информации из неструктурированных источников. Это решение упрощает интеграцию визуальных данных в RAG-системы и другие агентные пайплайны, где точность распознавания текста напрямую влияет на качество ответов языковых моделей.

Источник: GitHub

Похожие материалы

Hugging Face - Blog · Машинное обучение Релиз модели PP-OCRv6 с поддержкой 50 языков Команда PaddlePaddle представила шестую версию системы оптического распознавания символов PP-OCRv6. Обновленная архитектура демонстрирует значительный прогресс в эффективности: размер моделей варьируется от компактных 1,5 млн до производительных 34,5 млн параметров. Такой диапазон позволяет развертывать систему как на мобильных устройствах с ограниченными ресурсами, так и на мощных серверных мощностях для высоконагруженных задач. arXiv · Оценка и бенчмарки Новый бенчмарк для выявления ИИ-сгенерированных изображений с текстом Исследователи представили специализированный набор данных для оценки способности систем обнаруживать изображения, созданные нейросетями и содержащие значительные объемы текста. Современные мультимодальные модели научились генерировать реалистичные документы, графики и интерфейсы, что создает риски подделки конфиденциальной, финансовой или юридически значимой информации. Существующие инструменты детекции часто не справляются с анализом сложных визуальных структур, где текст является ключевым элементом. arXiv · Машинное обучение Автоматизация дешифровки клинописи с помощью компьютерного зрения Исследователи представили новый пайплайн для автоматического распознавания клинописных знаков на глиняных табличках. Проект решает проблему нехватки данных в ассириологии: из полумиллиона найденных артефактов эксперты успели проанализировать лишь малую часть из-за сложности ручной расшифровки. Разработанный метод использует крупнейший на сегодняшний день размеченный датасет клинописных символов для обучения моделей компьютерного зрения. Hacker News · Модели и релизы Релиз компактной модели для транскрибации китайского языка Разработчики представили специализированную модель для распознавания речи на китайском языке с параметрами 150 млн. Решение ориентировано на высокую скорость работы и оптимизировано для задач транскрибации в реальном времени. Ключевой особенностью системы является встроенная функция автоматического определения метаданных, что позволяет извлекать контекстную информацию непосредственно в процессе обработки аудиопотока. Hugging Face - Blog · Память и RAG PaddleOCR 3.5: интеграция с Transformers для обработки документов Команда PaddlePaddle выпустила обновлённую версию PaddleOCR 3.5, которая теперь поддерживает интеграцию с библиотекой Transformers от Hugging Face. Это позволяет использовать модели OCR (оптическое распознавание символов) в рамках экосистемы Transformers, что упрощает их интеграцию в сложные ИИ-агенты и системы обработки документов. Hacker News · Модели и релизы DeepSeek представила мультимодальную модель с поддержкой зрения Компания DeepSeek расширила возможности своей платформы, добавив поддержку обработки визуальных данных. Теперь пользователи могут загружать изображения в чат-интерфейс для анализа, распознавания текста и интерпретации графических материалов. Обновление позволяет модели работать с визуальным контекстом наряду с текстовыми запросами, что приближает функциональность сервиса к актуальным стандартам ведущих мультимодальных систем. Together.ai · Оркестрация агентов Как слабые модели справляются с длинным контекстом Исследователи из Together AI предложили новый подход к обработке длинных текстов с помощью небольших языковых моделей. Они разработали фреймворк «Divide & Conquer», который разбивает длинные документы на параллельные части и обрабатывает их с помощью нескольких моделей. Hacker News · Исследования и наука Технологический прорыв DeepSeek в архитектуре нейросетей Китайская исследовательская лаборатория DeepSeek представила архитектуру, которая существенно меняет подход к обучению и работе крупных языковых моделей. В основе решения лежит использование архитектуры Mixture-of-Experts (MoE) с глубокой оптимизацией процесса активации параметров. Вместо того чтобы задействовать всю нейросеть целиком для каждого запроса, система активирует лишь малую часть весов, что позволяет радикально снизить вычислительные затраты при сохранении высокой точности ответов. Hacker News · Данные и инжиниринг Polyvia: инструмент для мультимодального поиска по большим массивам документов Представлен проект Polyvia, ориентированный на работу с крупными базами неструктурированных данных. Система позволяет выполнять мультимодальный поиск по архивам, насчитывающим более 100 тысяч файлов. Инструмент предназначен для извлечения информации из документов различных форматов, объединяя текстовые и визуальные данные в единый индекс для последующих запросов. Together.ai · Модели и релизы DeepSeek-V4 Pro доступна на Together AI Together AI анонсировала доступность модели DeepSeek-V4 Pro. Новая версия поддерживает контекст длиной 512K токенов, что позволяет обрабатывать сложные задачи, такие как анализ кода, документов и синтез исследований.

← Все материалы