Исследователи изучили, способны ли языковые модели оценивать ценность своих текущих стратегий, то есть вероятность достижения целей. Для этого они использовали синтетические данные обучения с подкреплением и построили "ось ценности" для модели Qwen3-8B. Оказалось, что активации вдоль этой оси различают высокий и низкий уровень уверенности, а также успешные и неудачные стратегии.
Этот результат важен для разработки ИИ-агентов, так как позволяет моделям самостоятельно оценивать эффективность своих действий. Это может улучшить их способность к адаптации и принятию решений в динамических средах. Например, агент Jarv сможет корректировать свои стратегии в реальном времени, основываясь на внутренней оценке их ценности.
Исследование также показывает, что языковые модели могут не только выполнять задачи, но и анализировать свои собственные действия. Это открывает новые возможности для создания более автономных и саморефлексирующих ИИ-агентов. В будущем такие модели смогут не только выполнять команды, но и оптимизировать свои стратегии для достижения лучших результатов.
Для команды, работающей над Jarv, это исследование подчеркивает важность интеграции механизмов самооценки в ИИ-агенты. Это может значительно повысить их эффективность и адаптивность, делая их более полезными в различных сценариях.