Компания Mistral AI выпустила Mistral OCR 4 — специализированную модель, предназначенную для высокоточного извлечения данных из сложных документов. Решение поддерживает 170 языков и способно распознавать не только текст, но и структуру страниц, включая таблицы, графики и формулы. Важной особенностью модели является возможность определения координат (bounding boxes) для каждого распознанного элемента, что критически важно для автоматизации бизнес-процессов и интеграции с системами документооборота.

Модель разработана для работы с многостраничными файлами, включая PDF-отчеты, счета-фактуры и техническую документацию. Mistral OCR 4 обеспечивает высокую точность при анализе визуальных элементов, позволяя преобразовывать неструктурированные бумажные или цифровые документы в машиночитаемый формат, пригодный для дальнейшей обработки агентскими системами или RAG-пайплайнами.

Разработчики могут развертывать Mistral OCR 4 на собственной инфраструктуре, что обеспечивает полный контроль над данными и соблюдение требований безопасности. Модель доступна через API платформы La Plateforme, а также может быть интегрирована в локальные контуры компаний, что делает её инструментом для создания корпоративных решений по автоматизации обработки входящей документации.