Недавнее исследование, опубликованное на arXiv, раскрывает значительный пробел в способности Vision-Language-Action (VLA) моделей работать с языками, отличными от английского. Эти модели, которые демонстрируют многообещающие возможности в обучении универсальных политик роботов на основе мультимодальных данных, в основном обучаются и оцениваются на английских инструкциях. Это оставляет их способность понимать и выполнять команды на других языках практически неизученной.
Авторы исследования подчеркивают, что хотя базовые большие языковые модели (LLM), лежащие в основе VLA, могут поддерживать множество языков, их интеграция в VLA-системы не гарантирует аналогичной многоязычной эффективности. Это связано с тем, что тренировочные данные и оценки часто ограничиваются английским языком, что приводит к потенциальным проблемам в реальных сценариях, где роботы могут взаимодействовать с пользователями, говорящими на разных языках.
Исследование также предлагает несколько направлений для будущих исследований, включая сбор и аннотирование мультимодальных данных на различных языках, а также разработку методов, которые могут эффективно переносить знания между языками. Это особенно важно для создания универсальных роботов, которые могут работать в глобальных условиях.
Для разработчиков ИИ-агентов, таких как Jarv, это исследование подчеркивает необходимость учета многоязычности на ранних этапах разработки. Включение разнообразных языковых данных в обучающие наборы и тестирование на различных языках может значительно улучшить способность агентов понимать и выполнять команды в реальных условиях.