arXiv · 23.06.2026 ·Машинное обучение

Метод ASALT для адаптивного переноса знаний в мультиагентном обучении с подкреплением

Исследователи представили ASALT — новый подход к обучению с подкреплением для нескольких агентов (MARL), решающий проблему переноса знаний между различными средами. В отличие от существующих методов, требующих идентичности размерностей пространств состояний и наблюдений, ASALT позволяет эффективно адаптировать стратегии агентов при изменении конфигурации среды, обеспечивая гибкость в задачах с разным количеством участников или параметрами окружения.

Основная сложность в мультиагентных системах заключается в жесткой привязке стратегий к конкретной структуре пространства состояний. При переносе знаний из исходной задачи в целевую малейшие изменения в размерности входных данных часто приводили к необходимости переобучения модели с нуля. Новый алгоритм использует механизм адаптивного выравнивания состояний, который динамически сопоставляет представления из разных доменов, сохраняя при этом семантическую целостность стратегий.

Технология опирается на архитектуру, способную абстрагироваться от конкретных размерностей, что критически важно для масштабируемых систем. Это позволяет использовать наработки, полученные в простых симуляциях, для управления более сложными или динамически изменяющимися мультиагентными средами без потери производительности. Метод демонстрирует высокую эффективность в сценариях, где количество агентов или их наблюдаемые параметры варьируются в процессе эксплуатации.

Ключевые факты

Алгоритм ASALT (Adaptive State Alignment for Lateral Transfer) снимает ограничение на идентичность размерностей пространств наблюдений и состояний.
Метод ориентирован на решение задач мультиагентного обучения с подкреплением (MARL), включая кооперативные и конкурентные сценарии.
Подход позволяет переносить стратегии между доменами с разной архитектурой, что сокращает время на обучение в новых условиях.
Разработка направлена на повышение гибкости и масштабируемости ИИ-агентов в динамических средах.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый метод обучения мультиагентных систем для принятия решений Исследователи представили метод Multi-Agent Fictitious Play, направленный на улучшение навыков принятия решений в мультиагентных системах на базе больших языковых моделей. Традиционный подход «разделяй и властвуй», при котором сложные задачи разбиваются на независимые подзадачи, оказался недостаточно эффективным для сценариев, требующих учета интересов всех сторон одновременно. Новый алгоритм позволяет агентам моделировать поведение оппонентов и партнеров, имитируя процесс стратегического взаимодействия. arXiv · Оркестрация агентов Новый подход к маршрутизации множества ИИ-агентов Исследователи из Университета Карнеги-Меллон представили новую работу, посвящённую компиляционным методам в задачах маршрутизации множества агентов (MAPF). В отличие от классических подходов, где все агенты должны достичь заданных целей без столкновений, авторы рассматривают варианты с разными требованиями к агентам. arXiv · Машинное обучение Новый метод повышения устойчивости многоагентных систем в условиях неточных моделей Исследователи представили новый математический подход к решению проблемы расхождения данных между тренировочными симуляторами и реальной средой в многоагентном обучении с подкреплением (MARL). В реальных условиях разрыв между моделью и действительностью часто приводит к резкому падению производительности агентов, так как стратегическое взаимодействие между ними усиливает любые ошибки прогнозирования. Авторы работы предлагают использовать принципы дистрибутивной робастности для оптимизации стратегий. arXiv · Машинное обучение Мультиагентные системы для многокритериальной оптимизации в динамических средах Исследователи представили новый подход к решению задач оптимизации в вычислительных и сетевых системах с помощью мультиагентных систем. Традиционные методы обучения с подкреплением часто сводят сложные задачи к минимизации единого скалярного вознаграждения, используя штрафные коэффициенты для учета ограничений. Однако такой подход оказывается недостаточно гибким в динамических условиях, где требования к производительности и затратам постоянно меняются. arXiv · Память и RAG Метод накопления преимуществ для самообучения ИИ-агентов Исследователи представили новый подход к обучению ИИ-агентов, основанный на механизме накопления маржинальных преимуществ (Marginal Advantage Accumulation). Метод решает проблему противоречивой обратной связи, возникающей при пакетной дистилляции траекторий, когда одни и те же операции с памятью получают разные оценки эффективности в разных итерациях обучения. arXiv · Исследования и наука AIR: новый подход к адаптивному рассуждению в мультимодальных моделях Исследователи представили метод Adaptive Interleaved Reasoning (AIR), направленный на улучшение логических способностей мультимодальных больших языковых моделей (MLLM). В отличие от существующих решений, которые полагаются на жестко заданные эвристики для обработки визуальных данных, новый подход позволяет моделям динамически использовать код для построения цепочек рассуждений. Это дает возможность системе самостоятельно определять, когда и как применять программные инструменты для решения сложных задач, требующих глубокого анализа изображений. arXiv · Машинное обучение Модельно-ориентированный подход к созданию сред для обучения с подкреплением Исследователи представили новый подход к разработке виртуальных сред, предназначенных для обучения агентов с подкреплением (RL). Традиционно создание таких систем требует значительных затрат времени, так как для успешной сходимости алгоритмов агентам необходимо тренироваться в множестве схожих, но вариативных условий. Авторы работы предлагают использовать модельно-ориентированную методологию, которая позволяет автоматизировать генерацию семейств сред, сохраняя при этом их функциональную близость. arXiv · Инфраструктура для агентов Нейро-символический подход к синтезу стратегий для мультиагентных систем Исследователи предложили новый нейро-символический подход для синтеза стратегий в мультиагентных системах (MAS). Проблема заключается в высокой вычислительной стоимости проверки моделей стратегических возможностей, таких как ATL (Alternating-Time Temporal Logic). Авторы интегрировали большие языковые модели (LLM) в процесс проверки моделей, что позволяет значительно ускорить и улучшить синтез стратегий. arXiv · Оркестрация агентов Новый метод обучения агентов для работы с графическими интерфейсами Исследователи представили подход к обучению агентов (Computer-Use Agents), способных выполнять задачи в графических интерфейсах через подкрепляющее обучение. Основная проблема — отсутствие масштабируемых сигналов вознаграждения в десктопных средах — решена с помощью системы автономной оценки. Это позволяет агентам обучаться достижению целей, опираясь на визуальное подтверждение успеха без необходимости ручной разметки данных или создания сложных функций вознаграждения. Hacker News · Инфраструктура для агентов Оптимизация стоимости и безопасности в агентных рабочих процессах Разработан новый подход к проектированию агентных систем, направленный на снижение затрат на инференс и повышение предсказуемости поведения моделей. Основная идея заключается в переходе от использования тяжелых LLM для выполнения всех этапов задачи к многоуровневой архитектуре, где сложные логические операции делегируются специализированным компактным моделям или жестко заданным алгоритмическим модулям.

← Все материалы