Исследователи представили архитектуру The Latent Bridge, решающую проблему задержек при работе ИИ-агентов в динамических средах. Система объединяет медленное логическое планирование (через VLM) с быстрым реактивным управлением, позволяя агентам действовать в режиме реального времени (15 Гц) при сохранении долгосрочного планирования. Метод преодолевает разрыв между качеством рассуждений и скоростью отклика, критически важный для управления компьютерными интерфейсами и играми.
Традиционные модели рассуждения, такие как Qwen3-VL-8B-Thinking, требуют около 1,5 секунд на генерацию ответа, что делает их непригодными для задач, требующих мгновенной реакции. Авторы предложили использовать «медленный» канал для формирования стратегии и «быстрый» канал для исполнения действий. Это позволяет системе поддерживать непрерывный поток управления, не дожидаясь завершения тяжелых вычислений.
Технология использует скрытые состояния (latent states) для передачи контекста между уровнями планирования. Такой подход позволяет агенту адаптироваться к изменениям в игровом процессе или интерфейсе, сохраняя при этом общую логику выполнения задачи. Решение демонстрирует эффективность в условиях, где критически важна минимальная задержка ввода-вывода при сохранении высокого уровня когнитивных способностей модели.
Ключевые факты
- Архитектура обеспечивает работу агента в цикле управления с частотой 15 Гц.
- Использование модели Qwen3-VL-8B-Thinking в качестве «медленного» планировщика.
- Разделение на реактивный и рассуждающий каналы устраняет задержки до 1,5 секунд.
- Метод оптимизирован для работы в средах с высокими требованиями к скорости, таких как компьютерные игры.
- Реализован механизм передачи контекста через скрытые состояния для синхронизации уровней планирования.