Исследователи представили метод ZEBRA, решающий проблему деградации аудио-языковых моделей при переходе от базовых классов к новым. Традиционное обучение промптов часто снижает точность на неизученных данных, однако ZEBRA использует регуляризацию энтропии для сохранения стабильности. Это позволяет моделям эффективно адаптироваться к новым категориям, не теряя при этом производительности на уже известных объектах в режиме zero-shot.

Аудио-языковые модели (ALM) демонстрируют высокую эффективность благодаря сопоставлению аудиосигналов с текстовыми описаниями. Однако при дообучении на специфических наборах данных (few-shot) возникает конфликт: модель «забывает» общие закономерности, что приводит к падению качества распознавания новых, ранее не встречавшихся классов. Предложенный подход минимизирует этот разрыв, обеспечивая баланс между специализацией и универсальностью.

Метод опирается на принципы обучения промптов, где вместо изменения весов всей модели оптимизируются лишь входные контекстные векторы. Регуляризация энтропии в ZEBRA предотвращает переобучение на базовых классах, заставляя модель сохранять более широкое распределение вероятностей. Это делает систему устойчивой к вариативности аудиоданных и повышает точность классификации в реальных сценариях, где количество размеченных примеров ограничено.

Ключевые факты

  • ZEBRA расшифровывается как Zero-Shot Entropy-Regularized Prompt Learning.
  • Метод направлен на устранение разрыва в обобщении между базовыми и новыми классами (base-to-novel generalization gap).
  • Регуляризация энтропии позволяет избежать падения точности на новых классах, характерного для стандартного обучения промптов.
  • Подход сохраняет преимущества zero-shot производительности при одновременном улучшении результатов на размеченных данных.