arXiv · 21.06.2026 ·Машинное обучение

Новый метод адаптации CLIP для работы с редкими данными

Исследователи представили метод Concept-Constrained Prompt Learning (CCPL), направленный на повышение эффективности адаптации мультимодальных моделей, таких как CLIP, к новым задачам при ограниченном количестве обучающих примеров. Традиционные подходы к настройке промптов часто приводят к переобучению на базовых классах, что снижает точность распознавания объектов, которые не встречались в процессе обучения.

Технология CCPL решает эту проблему за счет введения регуляризации, которая привязывает обучаемые промпты классов к заранее заданным текстовым прототипам концептов. При этом веса основной модели CLIP остаются неизменными, что позволяет избежать деградации исходных знаний нейросети. Такой подход обеспечивает более стабильное обобщение и позволяет модели корректно классифицировать объекты, даже если они не были представлены в обучающей выборке.

Результаты экспериментов показывают, что предложенный фреймворк значительно улучшает показатели few-shot обучения, сохраняя при этом легковесность процесса настройки. Метод позволяет эффективно адаптировать визуально-языковые модели для узкоспециализированных задач, требующих высокой точности при минимальном объеме размеченных данных.

Источник: arXiv

Похожие материалы

arXiv · Исследования и наука Новый метод для мультимодального разрешения кореферентности без предварительного обучения Исследователи предложили новый подход Plug-and-Adapt для мультимодального разрешения кореферентности (MCR), который не требует предварительного обучения на аннотированных данных. В статье на arXiv показано, что визуальная информация помогает устранять неоднозначности в тексте, что значительно повышает точность системы. arXiv · Машинное обучение Новый метод дообучения моделей речи для специфичных задач Исследователи предложили новый подход к дообучению foundation-моделей речи, которые изначально обучаются на больших объёмах неразмеченных данных. Такие модели создают универсальные представления, полезные для разных задач, но при этом кодируют информацию о ключевых переменных речи распределённо. Это означает, что для конкретных задач требуется только часть этой информации. arXiv · Машинное обучение Новый подход к байесовскому обучению в контексте Исследователи представили метод Multi-Task Bayesian In-Context Learning, направленный на улучшение работы языковых моделей с неопределенностью и обобщением данных. Традиционные методы байесовского вывода часто сталкиваются с вычислительными сложностями или требуют жестких ограничений, которые снижают точность предсказаний. Новый подход предлагает более эффективную альтернативу, объединяя принципы байесовского вывода с возможностями обучения в контексте (in-context learning). arXiv · Машинное обучение Новый метод управления генерацией речи через классификаторы Исследователи представили метод оптимизации генерации речи с помощью диффузионных моделей, который позволяет отказаться от обучения специализированных классификаторов для управления процессом. Традиционный подход к направленной генерации (classifier guidance) требует одновременного использования двух отдельных моделей: диффузионной и классификатора, обученного на зашумленных данных. Это усложняет архитектуру и увеличивает вычислительные затраты при развертывании систем синтеза. arXiv · Обучение и дообучение Новый метод обучения LLM через промежуточное RL Исследователи предложили новый подход к обучению языковых моделей (LLM) с использованием reinforcement learning (RL) на промежуточном этапе обучения. В статье, опубликованной на arXiv, авторы показывают, что традиционные методы RL с редкими наградами (sparse reward RL) сильно зависят от начальной подготовки модели. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации. arXiv · Память и RAG ContextRL: контекст-осознанное обучение для улучшения работы ИИ-агентов Исследователи из MIT и других ведущих университетов представили новый метод ContextRL, который улучшает способность языковых моделей (LLM) работать с длинными и сложными контекстами. Проблема заключается в том, что традиционные LLM часто не могут выделить ключевые детали в объемных данных, будь то строка в логах или мелкий элемент на изображении. ContextRL использует методы подкрепляющего обучения (RL), чтобы улучшить долгосрочное рассуждение и работу с мультимодальными данными. arXiv · Машинное обучение Новый метод обучения нейросетей без жесткого копирования знаний Исследователи предложили альтернативу традиционному дистилляции знаний (knowledge distillation), где маленькие модели пытаются копировать логиты больших. Проблема в том, что это делает их слишком узкоспециализированными, ухудшая обобщающую способность. arXiv · Машинное обучение ProductConsistency: новый метод сохранения идентичности объектов при редактировании изображений Исследователи представили метод ProductConsistency, направленный на решение проблемы потери деталей при редактировании изображений с помощью текстовых инструкций. Современные модели часто искажают ключевые характеристики товаров, такие как брендинг, специфические элементы дизайна и текстовые надписи, когда пользователь запрашивает изменение фона или окружения. Новый подход позволяет сохранять визуальную идентичность продукта, что критически важно для коммерческого использования ИИ в маркетинге и электронной коммерции. arXiv · Машинное обучение Новый подход к метаобучению в reinforcement learning Исследователи предложили новый фреймворк для метаобучения в reinforcement learning (RL), который улучшает адаптацию агентов к новым задачам. В традиционных методах метаобучения RL задача распознавания и управление телом агента часто связаны, что усложняет извлечение общих знаний и снижает эффективность обучения.

← Все материалы