Представлен Orion-2 — инструмент для создания визуальных агентов, способных взаимодействовать с графическими интерфейсами через анализ изображений и выполнение программного кода. Система позволяет агентам не только «видеть» экран, но и самостоятельно писать скрипты для управления элементами UI, что расширяет возможности автоматизации сложных рабочих процессов в браузерах и десктопных приложениях.
В основе решения лежит мультимодальная архитектура, которая переводит визуальные данные в инструкции для исполнения. Агент анализирует структуру интерфейса, определяет необходимые действия и генерирует код для их реализации. Такой подход позволяет автоматизировать задачи, требующие навигации по сайтам или взаимодействия с корпоративным ПО, где стандартные API-интеграции отсутствуют или ограничены.
Разработка ориентирована на создание автономных систем, способных выполнять многошаговые операции без участия человека. Инструмент предоставляет инфраструктуру для интеграции визуального восприятия в агентные пайплайны, что упрощает построение систем, работающих с любыми интерфейсами как с полноценными программными объектами.