Исследователи предложили новый подход к дообучению foundation-моделей речи, которые изначально обучаются на больших объёмах неразмеченных данных. Такие модели создают универсальные представления, полезные для разных задач, но при этом кодируют информацию о ключевых переменных речи распределённо. Это означает, что для конкретных задач требуется только часть этой информации.

Авторы работы предлагают метод интервенционного дообучения, который позволяет выделять специфичные подпространства данных, важные для конкретных задач. Это улучшает точность и эффективность моделей при решении узкоспециализированных задач.

Подход основан на использовании интервенционных стратегий, которые помогают модели фокусироваться на релевантных аспектах данных. Это позволяет снизить нагрузку на вычисления и повысить качество результатов. Исследование опубликовано на arXiv и может найти применение в различных областях, где требуется обработка речи.

Разработчики отмечают, что их метод может быть полезен для создания более эффективных и специализированных моделей речи, что в свою очередь может улучшить качество автоматизированных систем транскрибации, ассистентов и других приложений, работающих с речью.