Исследователи представили метод автоматизированного формирования библиотек навыков (SKILL.md) для ИИ-агентов, работающих с графическими интерфейсами. Вместо ручного описания действий система использует трехэтапный конвейер, который анализирует логи взаимодействия пользователя с компьютером. На первом этапе происходит сегментация траекторий GUI, затем алгоритм кластеризует полученные фрагменты в повторяющиеся паттерны навыков, и на финальной стадии эти данные используются для дообучения агентных моделей.
Использование явных библиотек навыков позволяет сделать работу агентов более прозрачной и предсказуемой. Авторы метода доказали, что извлечение структурированных навыков из сырых данных взаимодействия значительно повышает эффективность последующих политик управления. Модели, обученные с учетом таких библиотек, демонстрируют более высокую точность при выполнении сложных многошаговых задач в интерфейсах программного обеспечения.
Данный подход решает проблему интерпретируемости агентных систем, позволяя разработчикам отслеживать, какие именно навыки задействует модель в процессе выполнения задания. Автоматизация этого процесса снижает трудозатраты на подготовку обучающих выборок и позволяет масштабировать создание специализированных агентов для автоматизации офисных и прикладных задач без необходимости написания кода для каждого отдельного действия.