Hacker News · 23.06.2026 ·Инфраструктура для агентов

PhoneBuddy: обучение открытых моделей для управления смартфоном

Исследователи представили проект PhoneBuddy, направленный на создание специализированных открытых моделей для выполнения агентных задач на мобильных устройствах. В отличие от стандартных LLM, эти модели обучаются взаимодействовать с интерфейсом смартфона напрямую: распознавать элементы управления, нажимать на кнопки, вводить текст и навигировать по приложениям. Основная цель разработки — предоставить разработчикам инструмент для создания автономных помощников, способных выполнять действия в реальной среде без необходимости в проприетарных API.

Для обучения моделей использовался специализированный набор данных, включающий сценарии взаимодействия с популярными приложениями. Авторы сфокусировались на повышении точности выполнения команд и способности модели интерпретировать визуальный контекст экрана. Проект включает в себя не только веса моделей, но и методологию сбора данных, что позволяет сообществу дообучать системы под конкретные пользовательские задачи или специфические интерфейсы.

Решение направлено на преодоление ограничений текущих мультимодальных моделей, которые часто сталкиваются с трудностями при работе с динамическими мобильными интерфейсами. Использование открытых архитектур в данном сегменте упрощает интеграцию агентных функций в локальные приложения и повышает уровень приватности, так как обработка действий может происходить на устройстве или в контролируемом контуре, минимизируя передачу данных на сторонние серверы.

Источник: Hacker News

Похожие материалы

Hacker News · Инференс и железо Особенности дообучения и запуска LLM на мобильных устройствах Запуск больших языковых моделей непосредственно на смартфонах требует значительной оптимизации вычислительных ресурсов и управления памятью. Основные сложности связаны с ограниченным объемом оперативной памяти и необходимостью поддержания высокой энергоэффективности при выполнении операций инференса. Для адаптации моделей под мобильное железо применяются методы квантования, позволяющие снизить точность весов без критической потери качества генерации, что критически важно для работы на чипсетах с ограниченной пропускной способностью. Hugging Face - Blog · Оценка и бенчмарки Новый подход к оценке агентных способностей открытых моделей Hugging Face представила методологию для оценки того, насколько эффективно языковые модели справляются с использованием внешних инструментов. В отличие от стандартных тестов на логику или знание фактов, новый подход фокусируется на способности модели вызывать функции, интерпретировать ответы API и корректировать свои действия в рамках многошаговых задач. Это позволяет разработчикам точнее определять, какая модель лучше подходит для создания автономных агентов. Microsoft Research · Оркестрация агентов MagenticLite: агентная система для малых моделей от Microsoft Research Microsoft Research представила MagenticLite — агентную систему, оптимизированную для работы с малыми моделями. Она поддерживает выполнение задач как в браузере, так и в локальной файловой системе, что делает её универсальным решением для повседневных задач. Система объединяет специализированные модели и оркестрацию, что позволяет эффективно использовать ограниченные вычислительные ресурсы. arXiv · Машинное обучение Модельно-ориентированный подход к созданию сред для обучения с подкреплением Исследователи представили новый подход к разработке виртуальных сред, предназначенных для обучения агентов с подкреплением (RL). Традиционно создание таких систем требует значительных затрат времени, так как для успешной сходимости алгоритмов агентам необходимо тренироваться в множестве схожих, но вариативных условий. Авторы работы предлагают использовать модельно-ориентированную методологию, которая позволяет автоматизировать генерацию семейств сред, сохраняя при этом их функциональную близость. Hugging Face - Blog · Инференс и железо Reachy Mini: локальный ИИ-агент с открытым исходным кодом Компания Pollen Robotics представила Reachy Mini — локальный ИИ-агент с открытым исходным кодом, который может работать на обычном ноутбуке. Это важный шаг в развитии локальных решений для ИИ-агентов, так как многие современные системы требуют мощных серверов или облачных вычислений. Hacker News · Инфраструктура для агентов Практический опыт разработки ИИ-агентов для автоматизации браузерных задач Разработка автономных агентов требует перехода от простых цепочек промптов к сложным системам управления состоянием и обработки ошибок. Основная сложность заключается в обеспечении надежности действий модели в реальной среде, где интерфейсы веб-сайтов постоянно меняются, а сетевые задержки могут привести к сбоям в выполнении последовательных команд. Hacker News · Оркестрация агентов Simple-Agent: новый подход к автоматизации разработки ПО Исследователи представили Simple-Agent — фреймворк для создания автономных ИИ-агентов, ориентированный на решение задач по написанию и отладке программного кода. В основе проекта лежит принцип минимизации сложности архитектуры: вместо многоуровневых систем оркестрации разработчики сделали ставку на прямое взаимодействие модели с инструментами разработки. Такой подход позволил достичь высоких показателей производительности на популярных бенчмарках, включая SWE-bench Pro и Verified. Hacker News · Инференс и железо Реализация архитектурных подходов Anthropic Glasswing для локального запуска Исследователи представили метод воспроизведения функциональных особенностей архитектуры Glasswing от Anthropic в локальной среде. Основной акцент сделан на оптимизации процесса инференса, позволяющей достичь сопоставимых результатов без использования проприетарных облачных API. Техническое решение опирается на адаптацию весов моделей с открытым исходным кодом, что дает возможность запускать сложные агентные системы на потребительском оборудовании. arXiv · Машинное обучение Использование неявных сигналов пользователя для дообучения LLM Исследователи представили новый подход к дообучению больших языковых моделей, основанный на анализе неявных действий пользователей. Традиционные методы настройки моделей опираются на явную обратную связь, такую как оценки «нравится» или «не нравится», что требует значительных затрат на сбор данных и встречается крайне редко. Новый метод предлагает использовать для обучения данные о поведении пользователя в интерфейсе, включая движения мыши, траекторию взгляда и время взаимодействия с контентом. Hacker News · Исследования и наука Исследование: могут ли LLM-агенты строить модели мира Учёные изучают способность языковых моделей (LLM) строить модели мира через агентное поведение. В новом исследовании, опубликованном на arXiv, рассматривается, как агентные автоматические системы могут обучаться и адаптироваться в динамических средах.

← Все материалы