Исследователи представили систему для автоматического определения сложности слов при изучении иностранных языков, разработанную в рамках конкурса BEA 2026. Модель использует регрессионный анализ и объединяет контекстуальные эмбеддинги с лингвистическими признаками, учитывающими родной язык учащегося. Решение показало высокую точность в прогнозировании того, насколько сложным будет восприятие конкретной лексики для носителей испанского, немецкого и китайского языков.

В основе подхода лежит комбинация глубокого обучения и классической лингвистической инженерии признаков. Система анализирует частотность слов, их морфологические характеристики и поверхностные свойства, дополняя их векторными представлениями из многоязычных моделей. Учет влияния родного языка (L1-aware) позволяет модели точнее адаптироваться к специфическим трудностям, с которыми сталкиваются студенты при освоении новой лексики в зависимости от их языкового бэкграунда.

Разработка направлена на автоматизацию создания учебных материалов и адаптивных систем обучения. Использование таких алгоритмов позволяет динамически подбирать контент под уровень подготовки конкретного пользователя, минимизируя когнитивную нагрузку и повышая эффективность усвоения материала. Метод демонстрирует потенциал интеграции лингвистических знаний в современные нейросетевые архитектуры для решения прикладных задач в сфере EdTech.

Ключевые факты

  • Система разработана для участия в задаче BEA 2026 Shared Task 1 по предсказанию сложности лексики.
  • Моделирование выполнено для трех целевых языков: испанского, немецкого и китайского.
  • Архитектура объединяет многоязычные контекстуальные представления с инженерией признаков (частотность, морфология).
  • Задача сформулирована как задача регрессии для оценки уровня сложности слов для учащихся с разным родным языком.