Исследователи представили новый подход к дообучению больших языковых моделей, основанный на анализе неявных действий пользователей. Традиционные методы настройки моделей опираются на явную обратную связь, такую как оценки «нравится» или «не нравится», что требует значительных затрат на сбор данных и встречается крайне редко. Новый метод предлагает использовать для обучения данные о поведении пользователя в интерфейсе, включая движения мыши, траекторию взгляда и время взаимодействия с контентом.

Авторы работы доказывают, что эти косвенные сигналы содержат скрытую информацию о предпочтениях человека, которая может быть использована для автоматического формирования сигналов вознаграждения. В ходе экспериментов модель, обученная на таких неявных данных, продемонстрировала эффективность, сопоставимую с моделями, настроенными на основе классического обучения с подкреплением по отзывам людей (RLHF). При этом система позволяет собирать обучающие выборки в фоновом режиме без необходимости прерывать работу пользователя для выставления оценок.

Данный подход решает проблему дефицита качественных размеченных данных, с которой сталкиваются разработчики при создании специализированных ИИ-ассистентов. Использование поведенческих метрик открывает путь к созданию моделей, которые адаптируются к индивидуальным предпочтениям пользователя в режиме реального времени, опираясь на его естественную активность, а не на искусственно созданные анкеты или рейтинги.