Исследователи представили метод оптимизации расположения датчиков для управления конвекцией Рэлея-Бенара с помощью многоагентного обучения с подкреплением (MARL). Авторы обучают плотные экспертные политики на основе оконных наблюдений, а затем дистиллируют их в разреженные «ученические» модели. Использование групповой регуляризации весов входа энкодера позволяет значительно сократить количество необходимых сенсоров при сохранении высокой эффективности управления системой.

Работа предлагает фреймворк, объединяющий упорядоченную невыпуклую групповую регуляризацию и итеративное перевзвешивание. Такой подход позволяет эффективно отбирать наиболее информативные точки для размещения датчиков в динамических средах, где полная сенсорная сеть избыточна или технически невозможна. Метод демонстрирует, как агентные системы могут адаптироваться к ограниченным входным данным, сохраняя при этом точность контроля над сложными физическими процессами.

Дистилляция знаний из экспертных политик в разреженные структуры является перспективным направлением для промышленного интернета вещей и систем автоматизации, где минимизация аппаратных затрат на сенсорику критически важна для масштабируемости решений. Предложенный алгоритм позволяет автоматизировать выбор оптимальных позиций для датчиков, снижая вычислительную нагрузку на этапе инференса без существенной потери качества управления.

Ключевые факты

  • Исследование сфокусировано на управлении конвекцией Рэлея-Бенара через многоагентное обучение с подкреплением (MARL).
  • Применен метод дистилляции экспертных политик в разреженные модели через supervised learning.
  • Использована техника групповой регуляризации весов входа энкодера для отбора минимально необходимого количества сенсоров.
  • Фреймворк сочетает итеративное перевзвешивание и невыпуклую оптимизацию для повышения эффективности сенсорных сетей.