Исследователи представили метод Concept-Constrained Prompt Learning (CCPL), направленный на повышение эффективности адаптации мультимодальных моделей, таких как CLIP, к новым задачам при ограниченном количестве обучающих примеров. Традиционные подходы к настройке промптов часто приводят к переобучению на базовых классах, что снижает точность распознавания объектов, которые не встречались в процессе обучения.

Технология CCPL решает эту проблему за счет введения регуляризации, которая привязывает обучаемые промпты классов к заранее заданным текстовым прототипам концептов. При этом веса основной модели CLIP остаются неизменными, что позволяет избежать деградации исходных знаний нейросети. Такой подход обеспечивает более стабильное обобщение и позволяет модели корректно классифицировать объекты, даже если они не были представлены в обучающей выборке.

Результаты экспериментов показывают, что предложенный фреймворк значительно улучшает показатели few-shot обучения, сохраняя при этом легковесность процесса настройки. Метод позволяет эффективно адаптировать визуально-языковые модели для узкоспециализированных задач, требующих высокой точности при минимальном объеме размеченных данных.