Google интегрировала в модель Gemini 2.0 Flash функцию компьютерного взаимодействия (computer use), позволяющую ИИ автономно управлять интерфейсом ОС. Система способна воспринимать экран как последовательность скриншотов, анализировать элементы управления и выполнять действия: перемещать курсор, кликать, вводить текст и запускать приложения для решения многошаговых задач в реальном времени.

Технология переводит взаимодействие с ИИ из режима чат-бота в режим полноценного агента, способного выполнять действия в стороннем ПО. Модель анализирует состояние рабочего стола, планирует последовательность кликов и нажатий клавиш, а также корректирует свои действия в зависимости от отклика системы. Это значительно расширяет возможности автоматизации рабочих процессов, требующих работы с интерфейсами, не имеющими API.

Функциональность ориентирована на выполнение сложных сценариев, таких как заполнение форм, анализ данных в таблицах или навигация по веб-ресурсам. Разработчики получили доступ к инструментам, позволяющим интегрировать агентные способности модели в пользовательские приложения, обеспечивая выполнение задач, которые ранее требовали ручного участия человека.

Ключевые факты

  • Модель Gemini 2.0 Flash получила нативные возможности компьютерного взаимодействия для управления ОС.
  • ИИ-агент способен интерпретировать визуальный интерфейс, совершать клики, прокрутку и ввод данных.
  • Технология позволяет автоматизировать процессы в приложениях, где отсутствуют специализированные API.
  • Инструментарий доступен разработчикам через платформу Google AI Studio и Vertex AI для создания агентных систем.