Исследователи представили CzechDocs — многоязычный параллельный набор данных, предназначенный для совершенствования систем машинного перевода. Корпус включает документы в форматах HTML, DOCX и PDF, что позволяет обучать модели не только точному переводу текста, но и сохранению исходной структуры и верстки файлов. Это критически важный аспект для автоматизации обработки сложной документации, где визуальное оформление несет смысловую нагрузку.
Основу датасета составляют тексты на чешском языке, дополненные переводом на украинский и английский языки. Также в выборку включены фрагменты на вьетнамском, русском и ряде других языков, распространенных в Чехии. Использование таких данных помогает моделям лучше справляться с контекстом и спецификой форматирования, характерными для официальных и информационных документов.
Создание подобных наборов данных направлено на решение проблемы потери метаданных и разметки при автоматизированном переводе. CzechDocs предоставляет разработчикам инструмент для оценки качества работы нейросетей в условиях, приближенных к реальным бизнес-задачам, где требуется высокая точность воспроизведения структуры исходного файла.