Компания Mistral AI выпустила модель OCR 4, предназначенную для извлечения данных из сложных документов в структурированном виде. Инструмент предоставляет не только текст, но и метаданные: координаты блоков, классификацию типов контента и показатели уверенности модели. Решение оптимизировано для интеграции в RAG-пайплайны и агентные системы, обеспечивая высокую точность цитирования и привязку данных к исходным страницам.
Новая модель переводит процесс обработки документов на уровень выше простого распознавания текста. Благодаря поддержке 170 языков и возможности развертывания в едином самохостируемом контейнере, OCR 4 позволяет корпоративным системам автоматизировать извлечение информации из PDF, сканов и других форматов. Использование API-эндпоинта упрощает передачу данных в векторные базы данных, минимизируя ошибки при индексации и последующем поиске.
Система ориентирована на Enterprise-сегмент, где критически важна прослеживаемость данных. Возможность получения confidence scores для каждого слова и страницы позволяет разработчикам фильтровать низкокачественные данные на этапе подготовки RAG-индекса, что напрямую влияет на точность ответов LLM и снижает вероятность галлюцинаций при работе с корпоративной документацией.
Ключевые факты
- Релиз модели состоялся 23 июня 2026 года.
- Поддерживается 170 языков для распознавания и классификации контента.
- Каждый блок данных содержит bounding box, тип классификации и метрики уверенности (confidence scores) на уровне страниц и слов.
- Модель доступна для запуска в виде единого самохостируемого контейнера.
- Архитектура ориентирована на прямую интеграцию с RAG-системами и агентными рабочими процессами через единый API.
