Исследователи представили Svarna — открытую веб-платформу для работы с корпусом современного греческого языка. Инструмент объединяет пять различных баз данных, охватывающих литературные, институциональные, диалектные и исторические тексты, а также контент из социальных сетей. Общий объем платформы превышает 507 миллионов слов, что значительно расширяет возможности для обучения языковых моделей и лингвистических исследований в греческом сегменте.
Создание Svarna направлено на устранение дефицита качественных размеченных данных для греческого языка, который долгое время оставался «низкоресурсным» в контексте современных технологий обработки естественного языка (NLP). Платформа предоставляет исследователям и разработчикам доступ к структурированным данным, необходимым для дообучения LLM, анализа семантики и создания специализированных языковых инструментов.
Архитектура системы позволяет работать с различными регистрами речи, что критически важно для повышения точности генеративных моделей при взаимодействии с пользователями в разных контекстах. Интеграция данных из социальных сетей и официальных документов обеспечивает репрезентативность корпуса, позволяя моделям лучше улавливать как формальные языковые нормы, так и разговорные особенности современного греческого языка.
Ключевые факты
- Общий объем корпуса Svarna составляет более 507 миллионов слов.
- Платформа содержит около 29 миллионов предложений, структурированных по пяти категориям.
- В базу включены тексты из социальных сетей, литературные произведения, исторические архивы и институциональные документы.
- Проект является полностью открытым и доступным через веб-интерфейс для широкого круга исследователей.
- Платформа решает проблему нехватки данных для развития технологий обработки греческого языка.