Учёные пересмотрели подходы к dataset distillation (DD) — методу, который позволяет создавать компактные обучающие наборы данных, сохраняя ключевую информацию из больших датасетов. Исследование, опубликованное на arXiv, выявило несоответствия в оценке эффективности DD-методов, которые часто тестируются по разным протоколам, от стандартного ERM до использования одного или нескольких учителей.

Авторы отмечают, что существующие методы DD могут не всегда превосходить более простые подходы, такие как coresets. Они предлагают унифицированный подход к оценке, чтобы сделать сравнение методов более объективным.

Исследование подчёркивает важность стандартизации в оценке методов машинного обучения, что может помочь в выборе наиболее эффективных стратегий для работы с данными.

Работа доступна на arXiv и может быть полезна разработчикам, занимающимся оптимизацией обучающих наборов данных.