Исследователи представили протокол Act2Answer для оценки когнитивных способностей моделей Vision-Language-Action (VLA). Эти системы, предназначенные для управления роботами, обычно создаются путем дообучения мультимодальных моделей на специфических данных из робототехники. Однако до сих пор оставалось неясным, насколько эффективно такие модели сохраняют базовые знания об окружающем мире и здравый смысл после адаптации к физическим задачам.

Основная проблема при тестировании VLA-моделей заключается в сложности интерпретации ошибок. Когда робот совершает неверное действие, трудно определить причину: нехватку фактических знаний или низкое качество управления на низком уровне. Новый метод Act2Answer позволяет изолировать эти аспекты, проверяя способность модели отвечать на вопросы, требующие понимания контекста и логики, без необходимости выполнения физических манипуляций.

Результаты анализа показывают, что процесс дообучения для нужд робототехники может приводить к деградации общих знаний, заложенных в исходные модели. Разработанный протокол помогает разработчикам точнее оценивать, какие именно навыки теряются при переходе от универсальных мультимодальных систем к узкоспециализированным агентным решениям, что критически важно для создания более надежных и предсказуемых автономных роботов.