Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных.

Ключевая проблема — в предположении о монотонности: улучшение верфикатора должно приводить к улучшению «студента». Однако на практике верфикатор может начать предпочитать неоптимальные генерации, особенно на новых задачах, что ведёт к регрессии. Это особенно важно для ИИ-агентов, где самоулучшение — ключевой механизм адаптации.

Исследование подчёркивает необходимость более сложных механизмов контроля качества в процессе самообучения. Например, можно использовать дополнительные метрики или ограничивать влияние верфикатора на обучение. Это особенно актуально для агентов, работающих в динамичных средах, где задачи постоянно меняются.

Для разработчиков ИИ-агентов это означает, что при внедрении самоулучшающих механизмов нужно учитывать риски регрессии. Возможно, стоит комбинировать DPO с другими подходами, такими как RAG (Retrieval-Augmented Generation) или MCP (Memory-Augmented Planning), чтобы минимизировать негативные эффекты.