Исследователи представили новый подход к обучению ИИ-агентов, основанный на механизме накопления маржинальных преимуществ (Marginal Advantage Accumulation). Метод решает проблему противоречивой обратной связи, возникающей при пакетной дистилляции траекторий, когда одни и те же операции с памятью получают разные оценки эффективности в разных итерациях обучения.

Существующие системы часто не способны отличить действительно полезные действия агента от случайных удачных совпадений. Авторы работы формализовали два ключевых условия для оценки операций: выравниваемость (alignability) и сопоставимость (comparability). Это позволяет агенту систематизировать опыт, накопленный в процессе взаимодействия с памятью, и отсеивать неэффективные паттерны поведения.

Внедрение этого механизма позволяет агентам более стабильно эволюционировать, опираясь на долгосрочную память. Вместо того чтобы полагаться на разовые успехи, система накапливает доказательную базу для каждой операции, что делает процесс самообучения более предсказуемым и устойчивым к шуму в обучающих данных.