Исследователи представили метод Spotlight, направленный на снижение затрат при дообучении диффузионных трансформеров (DiT) с помощью обучения с подкреплением (RL). Традиционный процесс дообучения таких моделей требует использования тысяч высокопроизводительных графических процессоров, что делает его крайне ресурсоемким. Авторы работы предложили объединить два подхода: селекцию обучающих примеров (seed exploration) и использование спотовых инстансов облачных провайдеров.
Основная проблема использования спотовых GPU заключается в их нестабильности: из-за риска внезапного отключения мощностей обучение моделей часто прерывается, что приводит к простоям и потере прогресса. Метод Spotlight решает эту задачу за счет алгоритмической адаптации, которая позволяет эффективно распределять вычислительную нагрузку даже при использовании дешевых, но ненадежных ресурсов. Это дает возможность снизить стоимость аренды оборудования на 69–77% без ущерба для качества сходимости модели.
В рамках исследования была разработана стратегия, при которой выбор наиболее информативных примеров для обучения происходит параллельно с использованием спотовых мощностей. Такой подход минимизирует время простоя и позволяет интегрировать процесс отбора данных непосредственно в цикл обучения. Результаты показывают, что предложенная архитектура позволяет значительно сократить финансовый порог входа для обучения крупномасштабных генеративных моделей, делая процесс более доступным для исследовательских групп и компаний.