Исследователи представили GRINCO — фреймворк для активного обучения, который учитывает симметрии данных при формировании корезет-выборок. В отличие от стандартных подходов, метод работает в фактор-пространстве, индуцированном группой преобразований. Это позволяет избегать избыточного выбора данных, которые являются лишь трансформированными копиями уже отобранных примеров, значительно повышая эффективность разметки и обучения моделей.

Активное обучение традиционно направлено на минимизацию затрат на разметку за счет выбора наиболее информативных образцов. Однако классические методы часто игнорируют инвариантность данных, тратя бюджет на выбор объектов, которые с точки зрения семантики идентичны уже имеющимся в обучающей выборке. GRINCO решает эту проблему, проводя отбор на орбитах группы преобразований, что гарантирует разнообразие данных без дублирования.

Применение данного подхода позволяет сократить объем необходимой для обучения выборки без потери качества предсказаний. Метод особенно эффективен в задачах компьютерного зрения и обработки сигналов, где данные обладают выраженными симметриями, такими как поворот, отражение или сдвиг, что позволяет существенно оптимизировать процесс сбора и подготовки обучающих датасетов.

Ключевые факты

  • GRINCO (Group-invariant Coreset) оптимизирует выбор данных за счет работы в фактор-пространстве.
  • Метод предотвращает избыточную разметку, исключая выбор трансформированных версий одного и того же экземпляра.
  • Фреймворк ориентирован на повышение эффективности активного обучения в условиях ограниченного бюджета на разметку.
  • Алгоритм учитывает групповые симметрии, что делает его применимым для широкого спектра задач с инвариантными признаками.