Исследователи из MIT и Стэнфорда опубликовали работу, в которой ставят под сомнение эффективность современных ИИ-репетиторов. Проблема в том, что текущие методы оценки и обучения таких систем основаны на предположении, что студенты будут активно взаимодействовать с ИИ-репетитором, следуя его подсказкам и шагам. Однако в реальном мире это происходит далеко не всегда.

Авторы изучили, как студенты взаимодействуют с ИИ-репетиторами в реальных условиях и пришли к выводу, что существующие бенчмарки и методы оценки не учитывают этот разрыв. Они предлагают новый подход к оценке, который учитывает реальное поведение студентов, а не идеализированные сценарии.

Это исследование важно для разработчиков ИИ-агентов, так как показывает, что даже хорошо обученные системы могут оказаться неэффективными в реальном мире из-за несоответствия между ожиданиями разработчиков и поведением пользователей. Особенно это актуально для образовательных агентов, где важна не только точность ответов, но и способность адаптироваться к поведению пользователя.

Работа также поднимает вопрос о необходимости более сложных методов оценки, которые учитывают не только технические аспекты, но и психологические и поведенческие факторы. Это может стать важным направлением для дальнейших исследований в области разработки ИИ-агентов.