arXiv · 18.06.2026 ·Данные и инжиниринг

Выпущен датасет CzechDocs для обучения систем перевода с сохранением форматирования

Исследователи представили CzechDocs — многоязычный параллельный набор данных, предназначенный для совершенствования систем машинного перевода. Корпус включает документы в форматах HTML, DOCX и PDF, что позволяет обучать модели не только точному переводу текста, но и сохранению исходной структуры и верстки файлов. Это критически важный аспект для автоматизации обработки сложной документации, где визуальное оформление несет смысловую нагрузку.

Основу датасета составляют тексты на чешском языке, дополненные переводом на украинский и английский языки. Также в выборку включены фрагменты на вьетнамском, русском и ряде других языков, распространенных в Чехии. Использование таких данных помогает моделям лучше справляться с контекстом и спецификой форматирования, характерными для официальных и информационных документов.

Создание подобных наборов данных направлено на решение проблемы потери метаданных и разметки при автоматизированном переводе. CzechDocs предоставляет разработчикам инструмент для оценки качества работы нейросетей в условиях, приближенных к реальным бизнес-задачам, где требуется высокая точность воспроизведения структуры исходного файла.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение DenseOn и LateOn: открытые модели для поиска с длинным контекстом и поддержкой языков Исследователи представили DenseOn и LateOn — полностью открытые модели для семантического поиска, решающие проблему зависимости индустрии от закрытых данных. Авторы разработали комплексный пайплайн обучения, включающий 665 млн пар данных, и продемонстрировали эффективность переноса англоязычного обучения на многоязычные задачи, обеспечивая высокую точность в поиске по коду и длинным документам при полной воспроизводимости результатов. Hacker News · Данные и инжиниринг Выпущен датасет LOCUS-v1 с 2,2 млн текстов локальных законов и постановлений Исследователи представили LOCUS-v1 — масштабный открытый датасет, содержащий более 2,2 миллиона текстов муниципальных законов и нормативных актов. Этот ресурс предназначен для обучения и дообучения языковых моделей, специализирующихся на анализе юридической документации, поиске правовой информации и автоматизации работы с региональными нормами, которые ранее были труднодоступны для машинной обработки в едином формате. arXiv · Оценка и бенчмарки KrishokChat: бенчмарк и датасет для аграрного ИИ на бенгальском языке Исследователи представили KrishokChat — первый специализированный датасет и бенчмарк для обучения моделей в сфере сельского хозяйства на бенгальском языке. Проект ориентирован на работу в условиях ограниченных ресурсов и обеспечивает высокую точность ответов за счет строгой привязки к верифицированным источникам. Система включает 290 иерархических узлов знаний, извлеченных из 129 профильных аграрных руководств, что минимизирует риск галлюцинаций. Hacker News · Машинное обучение Autodata: агентный подход к генерации высококачественных синтетических данных Исследователи представили Autodata — агентную систему для автоматизированного создания синтетических наборов данных, предназначенных для обучения моделей машинного обучения. Система имитирует работу дата-сайентиста, самостоятельно выполняя итеративный цикл генерации, фильтрации и проверки данных. Это позволяет значительно повысить качество обучающих выборок, минимизируя шум и ошибки, характерные для стандартных методов синтеза данных. Hacker News · Оценка и бенчмарки Выпущен открытый датасет для обучения и оценки моделей автоисправления кода Разработчики представили TrueSET — специализированный набор данных для обучения и тестирования моделей, занимающихся автоматическим исправлением программного кода. Репозиторий включает верифицированные примеры правок, позволяющие объективно оценивать качество работы LLM в задачах отладки и рефакторинга. Инструментарий доступен для публичного использования на платформе Hugging Face, что упрощает воспроизведение результатов и сравнение различных архитектур моделей. The GitHub Blog · Модели и релизы GitHub выпустил открытый датасет для обучения многоязычных моделей GitHub представил новый открытый датасет, содержащий мультиязычный контент из репозиториев. Данные собраны из README, issues и pull requests и доступны под лицензией CC0-1.0. arXiv · Исследования и наука Новый подход к отбору данных для суммаризации научных текстов Исследователи представили метод повышения качества обучения моделей для суммаризации длинных научных документов. Авторы работы доказали, что использование всех доступных аннотаций от авторов статей не всегда эффективно из-за их неоднородного качества. Предложенный алгоритм фильтрации данных позволяет отбирать наиболее релевантные примеры, что значительно улучшает точность генерации кратких изложений для моделей с длинным контекстным окном. Hacker News · Обучение и дообучение Новые датасеты для ML-исследований от ArXiv и Semantic Scholar Команда FineSet.io выпустила набор датасетов, собранных из ArXiv и Semantic Scholar. Эти датасеты представлены в формате JSONL и содержат оценки качества, что делает их полезными для исследователей и разработчиков в области машинного обучения. Hacker News · Исследования и наука Выпущен датасет Cybersecurity AI (CAI) для обучения моделей в сфере кибербезопасности Исследователи представили Cybersecurity AI (CAI) — специализированный набор данных, предназначенный для обучения и оценки языковых моделей в задачах кибербезопасности. Датасет включает структурированные примеры угроз, уязвимостей и сценариев защиты, что позволяет разработчикам точнее настраивать ИИ для автоматизированного анализа кода, обнаружения аномалий и реагирования на инциденты в реальных инфраструктурах. Together.ai · Безопасность и алайнмент CoderForge: новый датасет для обучения агентов-программистов Компания Together.ai представила CoderForge — новый открытый датасет, предназначенный для обучения ИИ-агентов, способных работать с кодом. В его основе лежат данные из реальных проектов, включая задачи по рефакторингу, отладке и оптимизации кода.

← Все материалы