arXiv · 25.06.2026 ·Исследования и наука

Исследование: как исторические тексты влияют на производительность LLM

Исследователи проанализировали, почему современные языковые модели хуже справляются с историческими текстами на примере итальянского языка. Авторы выделили два ключевых фактора: «налог на токенизацию» из-за нестандартной орфографии и «налог на понимание», связанный с лингвистическими изменениями. Предложенный диагностический фреймворк позволяет количественно оценить эти барьеры и повысить качество обработки архивных данных с помощью простых методов адаптации.

Работа деконструирует сложность исторических документов, разделяя её на орфографические вариации, языковую дистанцию и недостаток данных в обучающей выборке. Традиционно такие тексты воспринимались как монолитная проблема, однако авторы доказывают, что разделение этих факторов позволяет точнее настраивать модели для работы с оцифрованными библиотечными архивами.

Предложенный метод минимизации этих «налогов» помогает моделям эффективнее интерпретировать архаичные формы слов и синтаксические конструкции, которые не встречаются в современных корпусах текстов. Это открывает новые возможности для автоматизации анализа культурного наследия и работы с историческими базами данных без необходимости полного переобучения моделей на огромных специализированных массивах.

Ключевые факты

Исследование фокусируется на декомпозиции сложности исторических текстов на «налог на токенизацию» и «налог на понимание».
Предложен диагностический фреймворк для оценки влияния орфографических вариаций и лингвистической дистанции на точность LLM.
Разработан метод простой минимизации этих барьеров, повышающий эффективность обработки архивных документов.
Работа подчеркивает критическую важность адаптации моделей для задач цифровых библиотек и гуманитарных исследований.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы