Исследователи из Стэнфорда и MIT провели исследование, показавшее, что обрезанные (pruned) языковые модели, успешно проходящие тесты с выбором ответа, часто не справляются с задачами, требующими свободного ответа. В статье, опубликованной на arXiv, авторы утверждают, что традиционные бенчмарки могут давать ложное представление о способностях моделей.
Учёные обрезали модели, удаляя нейроны с низкой активацией, и тестировали их на различных задачах. Модели демонстрировали хорошие результаты в тестах с выбором ответа, но проваливались в задачах, требующих генерации текста. Это указывает на то, что обрезка может нарушать способность моделей к обобщению и пониманию контекста.
Авторы подчёркивают, что текущие методы оценки моделей могут быть недостаточными для полной оценки их возможностей. Они предлагают разрабатывать более сложные бенчмарки, которые будут учитывать как закрытые, так и открытые задачи. Исследование также поднимает вопрос о том, как обрезка моделей влияет на их способность к обучению и адаптации.
Результаты исследования могут повлиять на подходы к оптимизации языковых моделей и разработке новых методов оценки их эффективности. Учёные призывают к более тщательному изучению влияния обрезки на различные аспекты работы моделей.