Исследователи представили новый подход к решению задач оптимизации в вычислительных и сетевых системах с помощью мультиагентных систем. Традиционные методы обучения с подкреплением часто сводят сложные задачи к минимизации единого скалярного вознаграждения, используя штрафные коэффициенты для учета ограничений. Однако такой подход оказывается недостаточно гибким в динамических условиях, где требования к производительности и затратам постоянно меняются.
Предложенная архитектура базируется на принципах лагранжевой оптимизации, позволяя агентам эффективно балансировать между конкурирующими целями. В отличие от классических моделей, где ограничения жестко вшиты в функцию вознаграждения, новая система динамически адаптирует веса штрафов в процессе работы. Это обеспечивает более точное соблюдение заданных параметров производительности при одновременном снижении операционных издержек.
Метод продемонстрировал высокую эффективность в сценариях, требующих принятия решений в реальном времени, где необходимо учитывать множество противоречивых факторов. Разработка открывает новые возможности для автоматизации управления сложной инфраструктурой, где критически важно поддерживать стабильность системы при минимальном потреблении ресурсов. Исследование подтверждает перспективность использования мультиагентного взаимодействия для решения задач, которые ранее требовали ручной настройки параметров или сложных эвристических алгоритмов.