Исследователи проанализировали, почему современные языковые модели хуже справляются с историческими текстами на примере итальянского языка. Авторы выделили два ключевых фактора: «налог на токенизацию» из-за нестандартной орфографии и «налог на понимание», связанный с лингвистическими изменениями. Предложенный диагностический фреймворк позволяет количественно оценить эти барьеры и повысить качество обработки архивных данных с помощью простых методов адаптации.
Работа деконструирует сложность исторических документов, разделяя её на орфографические вариации, языковую дистанцию и недостаток данных в обучающей выборке. Традиционно такие тексты воспринимались как монолитная проблема, однако авторы доказывают, что разделение этих факторов позволяет точнее настраивать модели для работы с оцифрованными библиотечными архивами.
Предложенный метод минимизации этих «налогов» помогает моделям эффективнее интерпретировать архаичные формы слов и синтаксические конструкции, которые не встречаются в современных корпусах текстов. Это открывает новые возможности для автоматизации анализа культурного наследия и работы с историческими базами данных без необходимости полного переобучения моделей на огромных специализированных массивах.
Ключевые факты
- Исследование фокусируется на декомпозиции сложности исторических текстов на «налог на токенизацию» и «налог на понимание».
- Предложен диагностический фреймворк для оценки влияния орфографических вариаций и лингвистической дистанции на точность LLM.
- Разработан метод простой минимизации этих барьеров, повышающий эффективность обработки архивных документов.
- Работа подчеркивает критическую важность адаптации моделей для задач цифровых библиотек и гуманитарных исследований.