Исследователи проанализировали эффективность контроллеров на базе обучения с подкреплением (Reinforcement Learning, RL) в нелинейных системах, подверженных внешним кибератакам. В работе рассматриваются сценарии с внедрением ложных данных и атаками типа «отказ в обслуживании» (DoS), которые представляют серьезную угрозу для критической инфраструктуры и автоматизированных производственных процессов.

В рамках эксперимента сравнивались четыре типа функций вознаграждения для RL-агентов, оцениваемых по критериям точности управления, вычислительных затрат и устойчивости к внешнему воздействию. Результаты показали, что использование функции вознаграждения на основе функции Ляпунова обеспечивает наилучшую устойчивость системы при минимальной ошибке отслеживания заданных параметров. Также продемонстрирована эффективность экспоненциального режима, который позволяет достичь приемлемого баланса между стабильностью работы и защищенностью от атак.

Данное исследование подчеркивает потенциал методов обучения с подкреплением в создании самовосстанавливающихся систем управления. Полученные выводы позволяют оптимизировать архитектуру контроллеров для работы в условиях нестабильной среды, где традиционные алгоритмы управления могут оказаться уязвимыми перед целенаправленным искажением входных сигналов.