Исследователи представили проект по полной оцифровке и систематизации литературного наследия индийского поэта-святого XVII века Сант Тукарама. В базу данных вошли 4582 абханги — традиционные религиозные песнопения, написанные на маратхи. С помощью современных языковых моделей тексты были переведены на английский язык и снабжены тематическими тегами, что позволило структурировать массив данных, который ранее был труднодоступен для широкого круга исследователей.

Процесс обработки включал не только прямой перевод, но и семантическое картирование. Каждое произведение было проанализировано на предмет ключевых философских и этических тем, что позволило создать интерактивную карту смыслов. Пользователи могут искать тексты по конкретным концепциям, метафорам или историческим контекстам, что превращает статичный архив в динамическую базу знаний для литературоведов и историков.

Данный кейс демонстрирует эффективность применения больших языковых моделей для работы с неструктурированными историческими архивами. Использование ИИ для автоматизации перевода и классификации позволяет сократить время на подготовку академических материалов с нескольких лет до нескольких месяцев. Проект показывает, как технологии обработки естественного языка могут быть успешно интегрированы в гуманитарные дисциплины для сохранения и популяризации культурного наследия.