arXiv · 17.06.2026 ·Машинное обучение

Укрепление киберфизических систем с помощью обучения с подкреплением

Исследователи проанализировали эффективность контроллеров на базе обучения с подкреплением (Reinforcement Learning, RL) в нелинейных системах, подверженных внешним кибератакам. В работе рассматриваются сценарии с внедрением ложных данных и атаками типа «отказ в обслуживании» (DoS), которые представляют серьезную угрозу для критической инфраструктуры и автоматизированных производственных процессов.

В рамках эксперимента сравнивались четыре типа функций вознаграждения для RL-агентов, оцениваемых по критериям точности управления, вычислительных затрат и устойчивости к внешнему воздействию. Результаты показали, что использование функции вознаграждения на основе функции Ляпунова обеспечивает наилучшую устойчивость системы при минимальной ошибке отслеживания заданных параметров. Также продемонстрирована эффективность экспоненциального режима, который позволяет достичь приемлемого баланса между стабильностью работы и защищенностью от атак.

Данное исследование подчеркивает потенциал методов обучения с подкреплением в создании самовосстанавливающихся систем управления. Полученные выводы позволяют оптимизировать архитектуру контроллеров для работы в условиях нестабильной среды, где традиционные алгоритмы управления могут оказаться уязвимыми перед целенаправленным искажением входных сигналов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Почему обучение с подкреплением для ИИ-агентов приводит к деградации моделей Исследователи выявили причину «катастрофического коллапса» при обучении LLM использованию инструментов через Reinforcement Learning (RL). В ходе многошаговых задач модели часто теряют способность корректно вызывать функции, что ведет к резкому падению производительности. Авторы работы предложили метод внедрения дополнительных контролирующих сигналов, который стабилизирует процесс обучения и предотвращает разрушение агентных навыков в сложных сценариях. arXiv · Исследования и наука Физически-информированное обучение с подкреплением для управления динамическими системами Исследователи представили метод обучения с подкреплением (RL), дополненный физическими законами, для управления сложными динамическими системами в реальном времени. Интеграция физических моделей позволяет значительно сократить количество необходимых взаимодействий со средой, решая проблему низкой эффективности выборки, характерную для классических RL-алгоритмов, что открывает возможности для применения ИИ в задачах с высокой размерностью и жесткими требованиями к точности. arXiv · Машинное обучение Использование показателя Ляпунова для обучения стабилизации систем в RL Исследователи предложили использовать характеристический показатель Ляпунова (LCE) в качестве функции плотного вознаграждения для задач обучения с подкреплением. Метод протестировали на классической задаче стабилизации перевернутого маятника с вертикальным движением основания. Агент не только успешно воспроизвел известное колебательное движение маятника Капицы, но и научился полностью гасить колебания, удерживая систему в строго вертикальном положении. Hacker News · Исследования и наука Анализ масштабируемости обучения с подкреплением (RL) Тоби Орд опубликовал глубокий анализ эффективности обучения с подкреплением (RL) при увеличении вычислительных мощностей. Автор исследует, насколько предсказуемо улучшаются результаты моделей при росте ресурсов, и сопоставляет эмпирические данные с теоретическими ожиданиями. Работа проливает свет на ограничения текущих алгоритмов и потенциальные барьеры на пути к созданию сверхразумных систем через масштабирование RL. NVIDIA Technical Blog · Машинное обучение Применение обучения с подкреплением в разработке ИИ-агентов Обучение с подкреплением (RL) становится ключевым методом для повышения автономности и точности ИИ-агентов. NVIDIA представила обзор подходов, позволяющих моделям эффективно принимать решения в динамических средах. Технологии эволюционируют от классического RLHF к более сложным методам, которые позволяют агентам самостоятельно оптимизировать цепочки рассуждений и корректировать действия для достижения долгосрочных целей в реальных бизнес-задачах. arXiv · Обучение и дообучение Использование RL-обучения для улучшения агентных способностей LLM Исследователи обнаружили, что стандартное обучение с подкреплением (RL) при дообучении моделей уже содержит скрытый потенциал для улучшения агентных навыков. Авторы работы доказывают, что этот процесс позволяет эффективно оценивать пошаговые действия моделей без необходимости в сложных внешних системах вознаграждения, что критически важно для решения долгосрочных задач в стохастических средах, где традиционные методы аннотирования данных практически не работают. Hacker News · Машинное обучение Мониторинг процессов обучения с подкреплением (RL) Команда Castform представила подход к мониторингу обучения моделей с подкреплением (RL), который решает проблему низкой прозрачности тренировочных циклов. Разработчики сфокусировались на отслеживании метрик в реальном времени, позволяя оперативно выявлять деградацию агентов и ошибки в среде до завершения дорогостоящих вычислительных сессий, что критически важно для стабильности сложных ML-пайплайнов. arXiv · Исследования и наука Повышение интерпретируемости обучения с подкреплением через физически обоснованную дистилляцию Исследователи представили метод повышения прозрачности глубокого обучения с подкреплением (DRL) для критически важных систем, таких как робототехника и автомобилестроение. Новый подход использует физически обоснованную дистилляцию политики, позволяя переводить сложные «черные ящики» нейронных сетей в интерпретируемые модели, сохраняя при этом высокую производительность управления в непрерывных средах и упрощая прохождение регуляторных проверок. arXiv · Машинное обучение Новый метод безопасного обучения с подкреплением для долгосрочных задач Исследователи представили новый подход к решению проблемы безопасного исследования в обучении с подкреплением (Reinforcement Learning). Основная сложность заключается в том, что агенты должны максимизировать производительность, строго соблюдая ограничения безопасности. В задачах с длинным горизонтом планирования текущие методы часто сталкиваются с накоплением ошибок оценки и ограниченными возможностями для поиска оптимальных стратегий, что делает их недостаточно надежными. arXiv · Машинное обучение Новый метод оптимизации функций вознаграждения в обучении с подкреплением Исследователи представили фреймворк для настройки функций вознаграждения в обучении с подкреплением без модели (model-free RL), решающий проблему «паралича политики» и избыточной осторожности агентов. На примере задачи автоматической парковки автомобилей с нехолономными ограничениями метод демонстрирует, как параметризованное формирование вознаграждения и регуляризация переключения направлений движения позволяют агентам избегать локальных минимумов и эффективно достигать целевых состояний.

← Все материалы