Исследователи проанализировали работу моделей, обучаемых на чередующихся последовательностях речевых и текстовых токенов. Основная цель работы заключалась в том, чтобы понять, как именно различные модальности взаимодействуют внутри латентного пространства нейросети и как текстовые данные влияют на развитие навыков обработки аудио.

В ходе экспериментов выяснилось, что модели, обученные на смешанных данных, демонстрируют способность к «латентному пониманию» текста даже при обработке исключительно речевых сигналов. Авторы работы доказали, что наличие текстовых токенов в обучающей выборке не просто расширяет словарный запас системы, но и структурирует внутренние представления модели, позволяя ей эффективнее интерпретировать акустические особенности речи через призму лингвистических закономерностей.

Полученные результаты объясняют, почему современные мультимодальные системы показывают более высокие результаты в задачах распознавания и синтеза речи по сравнению с моделями, обученными только на аудиоданных. Выявленные механизмы взаимодействия модальностей открывают новые возможности для оптимизации архитектур, работающих с потоковой речью, и позволяют точнее настраивать веса моделей для достижения баланса между качеством транскрипции и пониманием контекста.