Исследователи представили проект PhoneBuddy, направленный на создание специализированных открытых моделей для выполнения агентных задач на мобильных устройствах. В отличие от стандартных LLM, эти модели обучаются взаимодействовать с интерфейсом смартфона напрямую: распознавать элементы управления, нажимать на кнопки, вводить текст и навигировать по приложениям. Основная цель разработки — предоставить разработчикам инструмент для создания автономных помощников, способных выполнять действия в реальной среде без необходимости в проприетарных API.
Для обучения моделей использовался специализированный набор данных, включающий сценарии взаимодействия с популярными приложениями. Авторы сфокусировались на повышении точности выполнения команд и способности модели интерпретировать визуальный контекст экрана. Проект включает в себя не только веса моделей, но и методологию сбора данных, что позволяет сообществу дообучать системы под конкретные пользовательские задачи или специфические интерфейсы.
Решение направлено на преодоление ограничений текущих мультимодальных моделей, которые часто сталкиваются с трудностями при работе с динамическими мобильными интерфейсами. Использование открытых архитектур в данном сегменте упрощает интеграцию агентных функций в локальные приложения и повышает уровень приватности, так как обработка действий может происходить на устройстве или в контролируемом контуре, минимизируя передачу данных на сторонние серверы.