Компания Mistral AI выпустила модель OCR 4, предназначенную для извлечения данных из сложных документов в структурированном виде. Инструмент предоставляет не только текст, но и метаданные: координаты блоков, классификацию типов контента и показатели уверенности модели. Решение оптимизировано для интеграции в RAG-пайплайны и агентные системы, обеспечивая высокую точность цитирования и привязку данных к исходным страницам.

Новая модель переводит процесс обработки документов на уровень выше простого распознавания текста. Благодаря поддержке 170 языков и возможности развертывания в едином самохостируемом контейнере, OCR 4 позволяет корпоративным системам автоматизировать извлечение информации из PDF, сканов и других форматов. Использование API-эндпоинта упрощает передачу данных в векторные базы данных, минимизируя ошибки при индексации и последующем поиске.

Система ориентирована на Enterprise-сегмент, где критически важна прослеживаемость данных. Возможность получения confidence scores для каждого слова и страницы позволяет разработчикам фильтровать низкокачественные данные на этапе подготовки RAG-индекса, что напрямую влияет на точность ответов LLM и снижает вероятность галлюцинаций при работе с корпоративной документацией.

Ключевые факты

  • Релиз модели состоялся 23 июня 2026 года.
  • Поддерживается 170 языков для распознавания и классификации контента.
  • Каждый блок данных содержит bounding box, тип классификации и метрики уверенности (confidence scores) на уровне страниц и слов.
  • Модель доступна для запуска в виде единого самохостируемого контейнера.
  • Архитектура ориентирована на прямую интеграцию с RAG-системами и агентными рабочими процессами через единый API.