Исследователи из MIT и DeepMind изучили влияние on-policy distillation (OPD) на параметры моделей. Этот метод сочетает траектории студента, полученные в реальных условиях, с плотным супервизором от учителя. Авторы анализировали несколько языковых и визуально-языковых моделей и выявили два ключевых результата.

Первое: параметры моделей после OPD становятся более разреженными. Это означает, что значительная часть весов становится нулевой или незначительной, что может упростить инференс и снизить вычислительные затраты. Второе: геометрия параметров меняется, что может повлиять на обобщающую способность моделей.

Для разработчиков ИИ-агентов это важно, так как OPD может стать эффективным способом дообучения моделей на реальных данных. Разреженность параметров может улучшить производительность агентов, особенно в условиях ограниченных вычислительных ресурсов. Исследование также подчеркивает важность понимания геометрии параметров для оптимизации работы моделей.

Авторы отмечают, что OPD может быть полезен для адаптации моделей под конкретные задачи, что особенно актуально для ИИ-агентов, работающих в динамических средах. Исследование опубликовано на arXiv и доступно по ссылке.