Исследователи представили WinDOM — метод самодистилляции для обучения компактных моделей (около 2 млрд параметров), предназначенных для навигации по графическим интерфейсам (GUI). Подход решает проблему нехватки размеченных данных и оптимизирует процесс дообучения, позволяя небольшим моделям достигать высокой точности в задачах взаимодействия с элементами интерфейса без привлечения дорогостоящей ручной разметки.
Для обучения GUI-агентов традиционно требовались огромные массивы данных, размеченных людьми, что ограничивало развитие локальных решений. WinDOM использует стратегию «семейной» дистилляции, где более крупная модель-учитель генерирует качественные аннотации для обучающих примеров, которые затем используются для тренировки компактного агента. Это позволяет эффективно переносить навыки понимания структуры интерфейса в модели, пригодные для запуска на устройствах с ограниченными ресурсами.
Метод также предлагает решение для интеграции обучения с подкреплением (RL) и классического обучения с учителем (SFT). За счет использования синтетических данных, полученных через дистилляцию, агенты демонстрируют улучшенную способность к локализации объектов (bounding-box grounding) и выполнению последовательностей действий в браузере или операционной системе. Это открывает возможности для создания доступных и быстрых инструментов автоматизации, работающих непосредственно на стороне клиента.
Ключевые факты
- Метод ориентирован на модели размером около 2 млрд параметров, что оптимально для локального инференса.
- Основная проблема, решаемая разработкой — отсутствие доступных наборов данных с разметкой bounding-box для GUI.
- WinDOM объединяет методы обучения с учителем и обучения с подкреплением для повышения точности действий агента.
- Технология направлена на снижение затрат на разработку агентных систем и повышение их производительности на конечном оборудовании.