arXiv · 18.06.2026 ·Машинное обучение

Использование неявных сигналов пользователя для дообучения LLM

Исследователи представили новый подход к дообучению больших языковых моделей, основанный на анализе неявных действий пользователей. Традиционные методы настройки моделей опираются на явную обратную связь, такую как оценки «нравится» или «не нравится», что требует значительных затрат на сбор данных и встречается крайне редко. Новый метод предлагает использовать для обучения данные о поведении пользователя в интерфейсе, включая движения мыши, траекторию взгляда и время взаимодействия с контентом.

Авторы работы доказывают, что эти косвенные сигналы содержат скрытую информацию о предпочтениях человека, которая может быть использована для автоматического формирования сигналов вознаграждения. В ходе экспериментов модель, обученная на таких неявных данных, продемонстрировала эффективность, сопоставимую с моделями, настроенными на основе классического обучения с подкреплением по отзывам людей (RLHF). При этом система позволяет собирать обучающие выборки в фоновом режиме без необходимости прерывать работу пользователя для выставления оценок.

Данный подход решает проблему дефицита качественных размеченных данных, с которой сталкиваются разработчики при создании специализированных ИИ-ассистентов. Использование поведенческих метрик открывает путь к созданию моделей, которые адаптируются к индивидуальным предпочтениям пользователя в режиме реального времени, опираясь на его естественную активность, а не на искусственно созданные анкеты или рейтинги.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Обучение и дообучение Метод Neuron-Aware для самообучения LLM без участия человека Исследователи представили метод Neuron-Aware Data Selection, позволяющий дообучать большие языковые модели без использования человеческой разметки или внешних экспертных данных. Технология опирается на самодистилляцию, где модель использует собственные выходы в качестве обучающих сигналов. Подход фокусируется на отборе наиболее информативных данных через анализ активации нейронов, что значительно повышает качество генерации в специализированных областях при отсутствии дорогостоящих аннотаций. Hacker News · Исследования и наука Исследование: языковые модели демонстрируют предвзятость, отличную от человеческой Новое исследование показывает, что современные LLM склонны соглашаться друг с другом в оценках и суждениях, однако их мнение часто расходится с позицией реальных пользователей. Анализ выявил, что модели формируют специфические «консенсусы», которые не отражают человеческое разнообразие взглядов, что создает риски при использовании ИИ в качестве советчика или инструмента для принятия решений в социокультурных вопросах. arXiv · Машинное обучение Новый метод обучения симуляторов пользователей через Turing Rewards Исследователи представили новый подход к обучению симуляторов человеческого поведения, которые необходимы для тестирования ИИ-ассистентов и систем персонализации. Традиционные методы обычно ограничиваются обучением языковых моделей на предсказании одного эталонного ответа, что часто приводит к предсказуемым и недостаточно вариативным результатам. Авторы работы предлагают использовать концепцию Turing Rewards, которая позволяет модели обучаться в интерактивной среде, ориентируясь на более сложные критерии взаимодействия, чем простое совпадение текста. The Decoder · Безопасность и алайнмент Новый метод обучения ИИ через внедрение полезных поведенческих черт Исследователи OpenAI представили подход к обучению моделей, основанный на закреплении конкретных поведенческих паттернов, таких как правдивость и готовность к исправлению ошибок. Вместо использования конституционных ограничений, как это делает Anthropic, авторы применяют метод обучения с подкреплением на небольших наборах данных, содержащих примеры желаемого поведения. Такой подход позволяет модели переносить усвоенные принципы на различные предметные области, делая систему более устойчивой к попыткам манипуляции. arXiv · Исследования и наука Исследование методов отслеживания влияния обучающих данных на ответы LLM Исследователи проанализировали два ключевых подхода к интерпретации поведения больших языковых моделей: оценку сходства данных (data-similarity) и оценку влияния данных (data-influence). Первый метод основан на поиске семантической близости между запросом и обучающей выборкой, что требует значительно меньше вычислительных ресурсов. Второй метод направлен на определение того, как конкретные примеры из обучающего набора напрямую меняют веса модели и влияют на итоговый результат, что считается более точным, но трудоемким процессом. arXiv · Машинное обучение Новый метод обучения языковых моделей с комбинированием верифицируемых наград и человеческих предпочтений Исследователи представили метод обучения языковых моделей, объединяющий RLVR (обучение с подкреплением на основе верифицируемых наград) и человеческие демонстрации. Подход позволяет оптимизировать модели не только по объективным метрикам, таким как корректность кода или математических вычислений, но и учитывать субъективные аспекты качества текста, включая стиль, структуру и логическую связность, которые ранее игнорировались традиционными алгоритмами. arXiv · Исследования и наука Метакогнитивная обратная связь повышает точность оценки уверенности LLM Исследователи представили метод обучения с подкреплением (RL), который наделяет большие языковые модели способностью к метапознанию — мониторингу собственных когнитивных процессов. Внедрение метакогнитивной обратной связи позволяет моделям более точно выражать внутреннюю неуверенность, снижая склонность к самоуверенным галлюцинациям и помогая системе лучше распознавать границы своих знаний в сложных задачах. arXiv · Исследования и наука LEMUR: новый метод обучения ИИ с учетом множественных целей Исследователи представили метод LEMUR, позволяющий обучать системы с подкреплением при наличии нескольких конфликтующих целей. В отличие от классических подходов, использующих единую скалярную функцию вознаграждения, LEMUR опирается на обратную связь от предпочтений пользователя. Это позволяет модели находить оптимальный баланс между противоречивыми задачами, такими как производительность и энергоэффективность, без необходимости ручного проектирования сложных функций вознаграждения. Hacker News · Обучение и дообучение Практические уроки дообучения моделей с помощью обучения с подкреплением Исследователи опубликовали детальный разбор экспериментов по пост-тренировке языковых моделей с использованием обучения с подкреплением (RL). В работе проанализированы ключевые факторы, влияющие на стабильность процесса и итоговое качество ответов, включая выбор стратегий оптимизации, подбор параметров вознаграждения и методы предотвращения деградации модели при интенсивном обучении на предпочтениях пользователей. Hacker News · Исследования и наука Исследование: поведение LLM определяется стилем обучения лабораторий, а не архитектурой Новое исследование показывает, что современные большие языковые модели обладают уникальными «цифровыми отпечатками», которые зависят от методологии обучения конкретной лаборатории, а не от архитектурных особенностей модели. Анализ поведения систем вроде GPT и Claude выявил устойчивые паттерны ответов, позволяющие с высокой точностью идентифицировать разработчика, даже если модель была подвергнута дообучению или смене версии.

← Все материалы