Google интегрировала возможность прямого взаимодействия с интерфейсом компьютера в модель Gemini 2.0 Flash. Теперь ИИ способен воспринимать экран как визуальный поток, перемещать курсор, нажимать кнопки и вводить текст, имитируя действия пользователя. Это открывает путь к созданию автономных агентов, способных выполнять многошаговые задачи в любых десктопных приложениях без необходимости в специализированных API.

Технология работает за счет анализа скриншотов в реальном времени. Модель интерпретирует элементы интерфейса, определяет их координаты и последовательно выполняет клики или набор символов для достижения цели. Такой подход позволяет автоматизировать рутинные процессы, требующие переключения между браузером, офисными программами и системными утилитами, что ранее было доступно только через интеграции с конкретными сервисами.

Функциональность ориентирована на разработчиков, создающих агентные системы для автоматизации рабочих процессов. В отличие от классических методов автоматизации, основанных на жестких скриптах, модель адаптируется к изменениям в дизайне интерфейсов и может обрабатывать непредсказуемые сценарии, требующие принятия решений на основе визуальной информации.

Ключевые факты

  • Функция реализована в модели Gemini 2.0 Flash, оптимизированной для низкой задержки и высокой скорости отклика.
  • ИИ взаимодействует с компьютером через визуальное восприятие экрана, распознавая кнопки, текстовые поля и другие элементы UI.
  • Система поддерживает выполнение сложных цепочек действий, включая навигацию по сайтам, заполнение форм и работу с файловой системой.
  • Инструмент доступен разработчикам через API для интеграции в собственные агентные решения и автоматизированные пайплайны.