Качество обучающих выборок остается критическим фактором при создании эффективных мультимодальных нейросетей. В условиях работы с массивами данных гигантского объема ручная проверка становится невозможной, что приводит к накоплению значительного количества «шумных» и нерелевантных примеров. Традиционные методы очистки данных, основанные на эвристиках или использовании сторонних предобученных моделей, часто оказываются недостаточно гибкими или требуют больших вычислительных затрат.
Исследователи представили новый подход к отбору данных, основанный на итеративной самофильтрации. Метод позволяет модели самостоятельно оценивать качество входящих пар «изображение-текст» в процессе обучения, постепенно отсеивая низкокачественные или противоречивые данные. В отличие от статических фильтров, этот алгоритм адаптируется к текущему состоянию модели, что позволяет фокусироваться на наиболее информативных примерах на каждом этапе подготовки.
Результаты экспериментов показывают, что такой подход позволяет существенно повысить производительность мультимодальных моделей при использовании меньшего объема данных. Авторы отмечают, что автоматизированная очистка датасетов через самофильтрацию снижает зависимость от дорогостоящей ручной разметки и позволяет эффективнее масштабировать обучение на неструктурированных данных из интернета. Метод открывает новые возможности для оптимизации пайплайнов подготовки данных в задачах компьютерного зрения и обработки естественного языка.