arXiv · 24.06.2026 ·Машинное обучение

WinDOM: новый метод дистилляции для компактных GUI-агентов

Исследователи представили WinDOM — метод самодистилляции для обучения компактных моделей (около 2 млрд параметров), предназначенных для навигации по графическим интерфейсам (GUI). Подход решает проблему нехватки размеченных данных и оптимизирует процесс дообучения, позволяя небольшим моделям достигать высокой точности в задачах взаимодействия с элементами интерфейса без привлечения дорогостоящей ручной разметки.

Для обучения GUI-агентов традиционно требовались огромные массивы данных, размеченных людьми, что ограничивало развитие локальных решений. WinDOM использует стратегию «семейной» дистилляции, где более крупная модель-учитель генерирует качественные аннотации для обучающих примеров, которые затем используются для тренировки компактного агента. Это позволяет эффективно переносить навыки понимания структуры интерфейса в модели, пригодные для запуска на устройствах с ограниченными ресурсами.

Метод также предлагает решение для интеграции обучения с подкреплением (RL) и классического обучения с учителем (SFT). За счет использования синтетических данных, полученных через дистилляцию, агенты демонстрируют улучшенную способность к локализации объектов (bounding-box grounding) и выполнению последовательностей действий в браузере или операционной системе. Это открывает возможности для создания доступных и быстрых инструментов автоматизации, работающих непосредственно на стороне клиента.

Ключевые факты

Метод ориентирован на модели размером около 2 млрд параметров, что оптимально для локального инференса.
Основная проблема, решаемая разработкой — отсутствие доступных наборов данных с разметкой bounding-box для GUI.
WinDOM объединяет методы обучения с учителем и обучения с подкреплением для повышения точности действий агента.
Технология направлена на снижение затрат на разработку агентных систем и повышение их производительности на конечном оборудовании.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы