Исследователи представили систему для автоматического определения сложности слов при изучении иностранных языков, разработанную в рамках конкурса BEA 2026. Модель использует регрессионный анализ и объединяет контекстуальные эмбеддинги с лингвистическими признаками, учитывающими родной язык учащегося. Решение показало высокую точность в прогнозировании того, насколько сложным будет восприятие конкретной лексики для носителей испанского, немецкого и китайского языков.
В основе подхода лежит комбинация глубокого обучения и классической лингвистической инженерии признаков. Система анализирует частотность слов, их морфологические характеристики и поверхностные свойства, дополняя их векторными представлениями из многоязычных моделей. Учет влияния родного языка (L1-aware) позволяет модели точнее адаптироваться к специфическим трудностям, с которыми сталкиваются студенты при освоении новой лексики в зависимости от их языкового бэкграунда.
Разработка направлена на автоматизацию создания учебных материалов и адаптивных систем обучения. Использование таких алгоритмов позволяет динамически подбирать контент под уровень подготовки конкретного пользователя, минимизируя когнитивную нагрузку и повышая эффективность усвоения материала. Метод демонстрирует потенциал интеграции лингвистических знаний в современные нейросетевые архитектуры для решения прикладных задач в сфере EdTech.
Ключевые факты
- Система разработана для участия в задаче BEA 2026 Shared Task 1 по предсказанию сложности лексики.
- Моделирование выполнено для трех целевых языков: испанского, немецкого и китайского.
- Архитектура объединяет многоязычные контекстуальные представления с инженерией признаков (частотность, морфология).
- Задача сформулирована как задача регрессии для оценки уровня сложности слов для учащихся с разным родным языком.