Hugging Face - Blog · 22.06.2026 ·Машинное обучение

Релиз модели PP-OCRv6 с поддержкой 50 языков

Команда PaddlePaddle представила шестую версию системы оптического распознавания символов PP-OCRv6. Обновленная архитектура демонстрирует значительный прогресс в эффективности: размер моделей варьируется от компактных 1,5 млн до производительных 34,5 млн параметров. Такой диапазон позволяет развертывать систему как на мобильных устройствах с ограниченными ресурсами, так и на мощных серверных мощностях для высоконагруженных задач.

Ключевым преимуществом новой версии стала поддержка 50 языков, что существенно расширяет возможности применения технологии в глобальных проектах. Разработчики оптимизировали алгоритмы детекции текста и распознавания символов, добившись повышения точности при работе со сложными макетами документов, рукописным вводом и низким качеством изображений. Модель показывает высокую устойчивость к шумам и искажениям, что критически важно для автоматизации обработки первичной документации и оцифровки архивов.

Инструментарий доступен на платформе Hugging Face, включая предобученные веса и документацию для интеграции в прикладные системы. Благодаря модульной структуре, пользователи могут выбирать конфигурацию модели в зависимости от требований к скорости инференса и качеству распознавания. Обновление направлено на упрощение внедрения OCR-решений в бизнес-процессы, где требуется быстрая и точная обработка текстовых данных из неструктурированных источников.

Источник: Hugging Face - Blog

Похожие материалы

Hugging Face - Blog · Память и RAG PaddleOCR 3.5: интеграция с Transformers для обработки документов Команда PaddlePaddle выпустила обновлённую версию PaddleOCR 3.5, которая теперь поддерживает интеграцию с библиотекой Transformers от Hugging Face. Это позволяет использовать модели OCR (оптическое распознавание символов) в рамках экосистемы Transformers, что упрощает их интеграцию в сложные ИИ-агенты и системы обработки документов. Hacker News · Модели и релизы Релиз компактной модели для транскрибации китайского языка Разработчики представили специализированную модель для распознавания речи на китайском языке с параметрами 150 млн. Решение ориентировано на высокую скорость работы и оптимизировано для задач транскрибации в реальном времени. Ключевой особенностью системы является встроенная функция автоматического определения метаданных, что позволяет извлекать контекстную информацию непосредственно в процессе обработки аудиопотока. Hacker News · Модели и релизы DeepSeek представила мультимодальную модель с поддержкой зрения Компания DeepSeek расширила возможности своей платформы, добавив поддержку обработки визуальных данных. Теперь пользователи могут загружать изображения в чат-интерфейс для анализа, распознавания текста и интерпретации графических материалов. Обновление позволяет модели работать с визуальным контекстом наряду с текстовыми запросами, что приближает функциональность сервиса к актуальным стандартам ведущих мультимодальных систем. Hacker News · Модели и релизы GLM-5.2: новая модель для сложных задач Компания Zhipu AI представила модель GLM-5.2, оптимизированную для выполнения сложных задач, требующих длительного контекста. Новая версия поддерживает до 128K токенов, что позволяет обрабатывать большие объёмы текста и выполнять задачи, требующие глубокого анализа. Hacker News · Модели и релизы DeepSeek V4 Pro: мощь за пятую часть стоимости Claude Компания DeepSeek представила новую версию своей модели V4 Pro, которая по заявлениям разработчиков превосходит аналогичные решения, но при этом стоит в пять раз дешевле, чем аналогичный продукт от Claude. Это достижение стало возможным благодаря оптимизации архитектуры и использованию новых методов обучения, которые позволили значительно снизить затраты на вычислительные ресурсы. Hacker News · Модели и релизы Новая модель для реального времени взаимодействия с изображениями и текстом Исследователи представили модель JoyAI-VL-Interaction, предназначенную для взаимодействия с изображениями и текстом в реальном времени. Она способна обрабатывать визуальные и текстовые данные одновременно, что открывает возможности для новых приложений в области компьютерного зрения и обработки естественного языка. Hacker News · Память и RAG ASR-модель распознаёт не только слова, но и эмоции и намерения Компания Whissle представила новую ASR-модель, способную не только транскрибировать речь, но и анализировать эмоции и намерения говорящего. Это позволяет использовать её для более глубокого понимания контекста в реальном времени. Модель обрабатывает аудио за 200 миллисекунд, что делает её одной из самых быстрых на рынке. Hacker News · Инференс и железо Orange Pi 6: новый одноплатный компьютер с 45 TOPS для ИИ Компания Orange Pi представила одноплатный компьютер Orange Pi 6, ориентированный на выполнение задач искусственного интеллекта на периферии. Устройство базируется на 12-ядерном процессоре Rockchip RK3588S2, который обеспечивает производительность нейронного процессора (NPU) на уровне 45 TOPS. Это позволяет запускать современные языковые модели и алгоритмы компьютерного зрения непосредственно на устройстве без обращения к облачным серверам. Hacker News · Модели и релизы Выход обновленной модели GLM 5.2 через унифицированный API Компания Zhipu AI представила обновленную версию своей языковой модели GLM 5.2. Релиз стал доступен разработчикам через единый интерфейс Model API, который объединяет доступ к различным моделям семейства GLM. Обновление направлено на повышение точности генерации текста, улучшение логических способностей и оптимизацию работы с длинным контекстом, что позволяет эффективнее решать задачи обработки естественного языка. Hacker News · Модели и релизы Выход GLM-5.2: новая китайская модель для программирования Китайская компания Zhipu AI представила GLM-5.2 — новую версию большой языковой модели, ориентированную на решение задач по написанию и отладке программного кода. Разработчики сфокусировались на улучшении логических способностей модели, что позволило ей демонстрировать результаты, сопоставимые с ведущими западными аналогами в специализированных бенчмарках для разработчиков. Модель оптимизирована для интеграции в среды разработки и автоматизации написания сложных алгоритмических конструкций.

← Все материалы