MarkTechPost · 25.06.2026 ·Инференс и железо

Baidu представила Unlimited OCR: 3B-модель с фиксированным потреблением памяти

Baidu выпустила Unlimited OCR — специализированную MoE-модель с 3 млрд параметров, предназначенную для обработки многостраничных документов. Главная особенность архитектуры заключается в использовании механизма Reference Sliding Window Attention (R-SWA), который поддерживает постоянный размер KV-кэша. Это позволяет модели сохранять стабильную скорость работы и потребление памяти независимо от объема входных данных, значительно превосходя существующие аналоги.

Традиционные модели для распознавания текста часто сталкиваются с проблемой линейного роста задержек и потребления VRAM при увеличении количества страниц. Unlimited OCR решает эту задачу за счет оптимизации внимания, что делает её эффективным решением для задач анализа длинных документов в реальном времени. Модель демонстрирует высокую точность на специализированных бенчмарках, опережая текущие отраслевые стандарты.

Релиз модели под лицензией MIT открывает широкие возможности для интеграции в корпоративные системы обработки документов, где требуется высокая производительность при ограниченных вычислительных ресурсах. Использование архитектуры Mixture-of-Experts (MoE) позволяет модели сохранять компактность при сохранении глубокой способности к пониманию структуры сложных документов.

Ключевые факты

Модель Unlimited OCR содержит 3 миллиарда параметров и использует архитектуру MoE.
Механизм R-SWA обеспечивает фиксированный размер KV-кэша, предотвращая рост задержек при увеличении длины документа.
Модель набрала 93,23 балла в бенчмарке OmniDocBench v1.5.
Результат модели на 6,22 балла выше показателей DeepSeek OCR.
Исходный код и веса модели доступны под лицензией MIT.

Источник: MarkTechPost

Обсудить с ИИ

Похожие материалы

GitHub · Машинное обучение Baidu представила Unlimited OCR для обработки длинных документов Компания Baidu выпустила проект Unlimited OCR, направленный на решение проблемы распознавания текста в документах с большой протяженностью и сложной структурой. Технология ориентирована на переход к парадигме one-shot обучения, что позволяет моделям эффективно обрабатывать длинные последовательности данных без необходимости многократных итераций или сложной предварительной разметки. Hugging Face - Blog · Машинное обучение Релиз модели PP-OCRv6 с поддержкой 50 языков Команда PaddlePaddle представила шестую версию системы оптического распознавания символов PP-OCRv6. Обновленная архитектура демонстрирует значительный прогресс в эффективности: размер моделей варьируется от компактных 1,5 млн до производительных 34,5 млн параметров. Такой диапазон позволяет развертывать систему как на мобильных устройствах с ограниченными ресурсами, так и на мощных серверных мощностях для высоконагруженных задач. MarkTechPost · Память и RAG Mistral представила OCR 4 для структурированной обработки документов в RAG-системах Компания Mistral AI выпустила модель OCR 4, предназначенную для извлечения данных из сложных документов в структурированном виде. Инструмент предоставляет не только текст, но и метаданные: координаты блоков, классификацию типов контента и показатели уверенности модели. Решение оптимизировано для интеграции в RAG-пайплайны и агентные системы, обеспечивая высокую точность цитирования и привязку данных к исходным страницам. The Decoder · Модели и релизы Mistral AI представила специализированную модель OCR для распознавания документов Компания Mistral AI выпустила новую модель Mistral OCR, предназначенную для высокоточного извлечения данных из сложных форматов документов, включая PDF, Word и PowerPoint. Согласно внутренним слепым тестам разработчика, новая модель превосходит конкурентов в 72% случаев, обеспечивая повышенную эффективность при обработке многостраничных файлов и структурированного контента для последующего анализа в ИИ-системах. Hacker News · Модели и релизы DeepSeek представила мультимодальную модель с поддержкой зрения Компания DeepSeek расширила возможности своей платформы, добавив поддержку обработки визуальных данных. Теперь пользователи могут загружать изображения в чат-интерфейс для анализа, распознавания текста и интерпретации графических материалов. Обновление позволяет модели работать с визуальным контекстом наряду с текстовыми запросами, что приближает функциональность сервиса к актуальным стандартам ведущих мультимодальных систем. Hacker News · Исследования и наука Технологический прорыв DeepSeek в архитектуре нейросетей Китайская исследовательская лаборатория DeepSeek представила архитектуру, которая существенно меняет подход к обучению и работе крупных языковых моделей. В основе решения лежит использование архитектуры Mixture-of-Experts (MoE) с глубокой оптимизацией процесса активации параметров. Вместо того чтобы задействовать всю нейросеть целиком для каждого запроса, система активирует лишь малую часть весов, что позволяет радикально снизить вычислительные затраты при сохранении высокой точности ответов. Mistral AI Blog · Инфраструктура для агентов Mistral представила специализированную модель OCR 4 для обработки документов Компания Mistral AI выпустила Mistral OCR 4 — специализированную модель, предназначенную для высокоточного извлечения данных из сложных документов. Решение поддерживает 170 языков и способно распознавать не только текст, но и структуру страниц, включая таблицы, графики и формулы. Важной особенностью модели является возможность определения координат (bounding boxes) для каждого распознанного элемента, что критически важно для автоматизации бизнес-процессов и интеграции с системами документооборота. arXiv · Оценка и бенчмарки Исследование устойчивости VLM к визуальным искажениям при распознавании текста Исследователи проанализировали устойчивость мультимодальных моделей (VLM) к деградации изображений при выполнении задач OCR-рассуждений. Работа выявила, что даже незначительные визуальные помехи существенно снижают точность распознавания и логических выводов моделей. Авторы представили методологию оценки, позволяющую измерить влияние структурных искажений и шума на способность нейросетей интерпретировать текст на сложных визуальных данных. Together.ai · Инференс и железо Как Together оптимизировал MiniMax-M3 для эффективного инференса Компания Together.ai представила подход к оптимизации работы модели MiniMax-M3, позволяющий эффективно обрабатывать контекст из 1 миллиона токенов и поддерживать мультимодальность. В основе решения лежит использование KV-block-major sparse attention, что позволяет значительно сократить вычислительные затраты при работе с большими контекстами. Hacker News · Модели и релизы SubQ 1.1: линейное масштабирование внимания с 98% точностью Исследователи представили обновлённую версию SubQ 1.1, модели, использующей линейно-масштабируемое разреженное внимание. Новый алгоритм обеспечивает 98% точность извлечения данных при работе с 12 миллионами токенов.

← Все материалы