Исследователи разработали IndicContextEval — специализированный набор тестов для проверки того, как аудио-языковые модели (AudioLLM) используют предоставленный контекст при распознавании речи. Актуальность работы обусловлена тем, что современные системы часто полагаются на внутренние знания, полученные при обучении, а не на актуальные текстовые подсказки, такие как списки сущностей или описания предметных областей.

Бенчмарк охватывает восемь языков индийской языковой группы и фокусируется на способности моделей динамически адаптироваться к внешним данным. В отличие от существующих методов тестирования, которые оценивают точность транскрипции в статичных условиях, IndicContextEval требует от модели доказательств того, что она действительно учитывает специфический контекст, предоставленный пользователем в промпте.

Результаты тестирования показывают, что многие современные модели демонстрируют ограниченную эффективность в использовании контекстуальных подсказок, предпочитая опираться на вероятностные закономерности языка. Новый инструмент позволяет разработчикам более точно измерять качество работы систем распознавания речи в сценариях, требующих высокой точности передачи терминологии и специфических лексических единиц.