Исследователи представили метод, позволяющий речевым языковым моделям (SLM) следовать инструкциям без необходимости проведения дорогостоящего обучения с подкреплением или специфического instruction tuning. Авторы доказали, что композиционные способности моделей можно раскрыть через архитектурные оптимизации, избегая синтеза огромных массивов размеченных аудиоданных, что значительно упрощает адаптацию моделей для работы с голосовыми командами и сложными речевыми задачами.
Традиционный подход к созданию речевых моделей копирует парадигму текстовых LLM, требуя обучения на специфических аудио-инструкциях. Это создает барьер из-за сложности синхронизации модальностей и нехватки качественных размеченных данных. Новый метод фокусируется на использовании внутренних композиционных свойств моделей, что позволяет им интерпретировать голосовые запросы, опираясь на уже имеющиеся знания, полученные в процессе предварительного обучения.
Такой подход открывает путь к созданию более эффективных голосовых ассистентов и систем обработки аудио, которые требуют меньше вычислительных ресурсов на этапе дообучения. Исключение этапа instruction tuning снижает зависимость от специфических датасетов, позволяя быстрее адаптировать модели под новые языки или узкоспециализированные домены без потери качества понимания контекста.
Ключевые факты
- Метод позволяет моделям следовать инструкциям без этапа instruction tuning, который ранее считался обязательным.
- Подход решает проблему сложности обучения на нескольких модальностях одновременно.
- Технология снижает потребность в синтезе крупномасштабных наборов данных для обучения речевых моделей.
- Исследование демонстрирует, что композиционные способности моделей могут быть активированы через архитектурные решения, а не через дополнительное обучение на специфических парах «инструкция-ответ».