arXiv · 30.06.2026 ·Машинное обучение

Метод ZEBRA улучшает обобщающую способность аудио-языковых моделей

Исследователи представили метод ZEBRA, решающий проблему деградации аудио-языковых моделей при переходе от базовых классов к новым. Традиционное обучение промптов часто снижает точность на неизученных данных, однако ZEBRA использует регуляризацию энтропии для сохранения стабильности. Это позволяет моделям эффективно адаптироваться к новым категориям, не теряя при этом производительности на уже известных объектах в режиме zero-shot.

Аудио-языковые модели (ALM) демонстрируют высокую эффективность благодаря сопоставлению аудиосигналов с текстовыми описаниями. Однако при дообучении на специфических наборах данных (few-shot) возникает конфликт: модель «забывает» общие закономерности, что приводит к падению качества распознавания новых, ранее не встречавшихся классов. Предложенный подход минимизирует этот разрыв, обеспечивая баланс между специализацией и универсальностью.

Метод опирается на принципы обучения промптов, где вместо изменения весов всей модели оптимизируются лишь входные контекстные векторы. Регуляризация энтропии в ZEBRA предотвращает переобучение на базовых классах, заставляя модель сохранять более широкое распределение вероятностей. Это делает систему устойчивой к вариативности аудиоданных и повышает точность классификации в реальных сценариях, где количество размеченных примеров ограничено.

Ключевые факты

ZEBRA расшифровывается как Zero-Shot Entropy-Regularized Prompt Learning.
Метод направлен на устранение разрыва в обобщении между базовыми и новыми классами (base-to-novel generalization gap).
Регуляризация энтропии позволяет избежать падения точности на новых классах, характерного для стандартного обучения промптов.
Подход сохраняет преимущества zero-shot производительности при одновременном улучшении результатов на размеченных данных.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы