Исследователи представили новый метод генерации синтетических наборов данных, предназначенных для тестирования методов интерпретируемости нейронных сетей. Существующие синтетические датасеты часто не отражают сложную иерархическую структуру реальных данных, что ограничивает их применимость при оценке того, как именно модели обучаются распознавать признаки.

В основе предложенного подхода лежит использование критических кластеров перколяции в рамках теории среднего поля. Такие структуры позволяют моделировать иерархические зависимости и многомасштабные паттерны, которые характерны для естественных данных, но отсутствуют в стандартных синтетических тестах. Это дает возможность более точно оценивать, как нейронные сети выстраивают внутренние представления при обучении на данных с высокой степенью сложности.

Разработка направлена на устранение разрыва между простыми математическими моделями и реальными задачами машинного обучения. Использование таких данных позволяет исследователям лучше понимать механизмы формирования признаков в глубоких архитектурах, обеспечивая более строгую проверку методов анализа «черного ящика» нейросетей.