Исследователи представили архитектуру для автоматизации бимануального складывания одежды, занявшую призовые места на соревновании ICRA 2026. Система использует VLA-модель (vision-language-action), дополненную циклом обучения с подкреплением. Ключевая особенность подхода заключается в том, что нейросеть одновременно предсказывает действия и оценивает вероятность успеха задачи, что значительно повышает точность манипуляций в сложных условиях.

В основе метода лежит интеграция визуальных данных и языковых инструкций для управления робототехническими манипуляторами. Традиционные подходы к складке тканей часто сталкиваются с проблемой непредсказуемой деформации материала. Авторы решили эту задачу, внедрив механизм самооценки внутри самой политики управления. Это позволяет модели в реальном времени корректировать траекторию движения, опираясь на предсказанный показатель успеха, что критически важно для работы с мягкими объектами.

Система показала высокую эффективность как в симуляционной среде, так и при переносе навыков на реальное оборудование. Использование единой сети для контроля действий и оценки состояния упрощает архитектуру и снижает вычислительные затраты при инференсе. Данный метод демонстрирует перспективность объединения VLA-моделей с методами обучения с подкреплением для задач, требующих высокой точности взаимодействия с физическим миром.

Ключевые факты

  • Система заняла 1-е место в онлайн-этапе (симуляция) среди 62 команд и 2-е место в финале на реальных роботах.
  • Модель использует единую нейросеть для предсказания действий и оценки успешности выполнения задачи.
  • Решение было представлено в рамках конкурса LeHome Challenge на конференции ICRA 2026.
  • Подход оптимизирует работу с деформируемыми объектами, что является одной из наиболее сложных задач в современной робототехнике.