Google внедрила функцию «Computer Use» непосредственно в модель Gemini 3.5 Flash, наделив её способностью самостоятельно взаимодействовать с интерфейсами ОС, браузерами и мобильными приложениями. Модель демонстрирует высокую эффективность в выполнении сложных задач, достигая 78,4 баллов на бенчмарке OSWorld. Инструмент открывает новые возможности для автоматизации офисных процессов и тестирования программного обеспечения через API.
Интеграция позволяет модели воспринимать визуальную информацию с экрана и совершать действия, аналогичные пользовательским: клики, ввод текста и навигацию по меню. Это превращает Gemini 3.5 Flash в полноценный агентный движок, способный работать с любым софтом без необходимости создания специфических интеграций для каждого отдельного приложения.
Разработчики получили доступ к этим возможностям через API, что упрощает создание автономных агентов для выполнения многошаговых сценариев. В отличие от традиционных методов автоматизации, основанных на жестких скриптах, подход Google опирается на визуальное понимание контекста, что делает систему более гибкой при работе с динамическими интерфейсами.
Ключевые факты
- Модель Gemini 3.5 Flash получила нативную поддержку управления компьютером (Computer Use).
- Результат 78,4 балла на бенчмарке OSWorld ставит модель в один ряд с передовыми решениями в области агентных систем.
- Функционал доступен для разработчиков через API для автоматизации тестирования и офисных задач.
- Модель способна самостоятельно анализировать экран и выполнять действия в ОС, браузерах и мобильных приложениях.
