Исследователи протестировали возможности современных LLM в автоматизированной оценке экзаменационных работ по Linux и Bash. Модели GPT, Claude Opus, Gemini и GLM оценивались на способность имитировать экспертное суждение при проверке заданий, требующих учета синтаксических вариаций и эквивалентных решений, с которыми не справляются традиционные системы на основе жестких правил.
Традиционные автоматизированные системы оценки (autograders) часто ограничены жесткими скриптами, которые не учитывают альтернативные способы решения задач или частичное выполнение условий. Использование языковых моделей позволяет внедрить четырехступенчатую когнитивную таксономию, что дает возможность оценивать не только финальный результат, но и логику построения команд, а также глубину понимания студентом структуры файловой системы и процессов.
В ходе эксперимента модели продемонстрировали способность к масштабируемой проверке, что критически важно для образовательных программ с большим количеством учащихся. Подход позволяет снизить нагрузку на преподавателей, сохраняя при этом точность оценки, сопоставимую с экспертной, и обеспечивая гибкость в интерпретации различных, но корректных подходов к решению одной и той же задачи.
Ключевые факты
- В исследовании сравнивались четыре модели: GPT, Claude Opus, Gemini и GLM.
- Методология опирается на четырехступенчатую когнитивную таксономию для анализа ответов.
- ИИ-оценка решает проблему неспособности классических систем учитывать синтаксические вариации и эквивалентные решения.
- Метод позволяет автоматизировать проверку заданий, требующих экспертного суждения, в условиях масштабирования учебных курсов.