Hacker News · 23.06.2026 ·Инфраструктура для агентов

TMax: новый метод обучения агентов для работы в терминале

Исследователи представили TMax — специализированный подход к обучению с подкреплением (RL), предназначенный для создания ИИ-агентов, способных эффективно взаимодействовать с интерфейсом командной строки. В отличие от стандартных методов, TMax фокусируется на максимизации долгосрочной полезности действий в терминале, что позволяет моделям лучше справляться с многошаговыми задачами администрирования и разработки.

Ключевая особенность метода заключается в оптимизации процесса принятия решений в текстовой среде, где агент должен интерпретировать вывод консоли и формировать последовательность команд. Алгоритм эффективно решает проблему разреженных наград, характерную для сложных системных задач, за счет использования улучшенных механизмов оценки состояний и предсказания результатов выполнения скриптов.

Данная разработка упрощает создание автономных систем, способных выполнять рутинные операции в Linux-окружении, такие как навигация по файловой системе, установка зависимостей и отладка кода. Применение TMax позволяет повысить точность выполнения команд и снизить количество ошибок при автоматизации процессов, требующих прямого доступа к системному терминалу.

Источник: Hacker News

Похожие материалы

Hacker News · Инфраструктура для агентов Treenix: типизированный рантайм для агентов Команда Treenix представила Treenix — типизированный рантайм, предназначенный для работы как с людьми, так и с ИИ-агентами. Это решение позволяет создавать более структурированные и предсказуемые системы, что особенно важно для разработки сложных агентов. Treenix использует строгую типизацию для управления состоянием и взаимодействиями, что снижает вероятность ошибок и упрощает отладку. arXiv · Оркестрация агентов HyperTool: новый подход к оркестрации инструментов в ИИ-агентах Исследователи из MIT и других ведущих университетов предложили новый подход к оркестрации инструментов в ИИ-агентах, который может значительно повысить эффективность работы агентов. В традиционных системах инструменты вызываются пошагово, что приводит к избыточным вычислениям и перегрузке контекста. Авторы работы предлагают использовать более крупнозернистые вызовы инструментов, что позволяет сократить количество шагов и улучшить управление данными. arXiv · Машинное обучение Мультиагентные системы для многокритериальной оптимизации в динамических средах Исследователи представили новый подход к решению задач оптимизации в вычислительных и сетевых системах с помощью мультиагентных систем. Традиционные методы обучения с подкреплением часто сводят сложные задачи к минимизации единого скалярного вознаграждения, используя штрафные коэффициенты для учета ограничений. Однако такой подход оказывается недостаточно гибким в динамических условиях, где требования к производительности и затратам постоянно меняются. Hacker News · Инфраструктура для агентов Концепция грамматики для агентных систем программирования Разработчики представили формализованный подход к проектированию агентов, специализирующихся на написании кода. В основе концепции лежит идея «грамматики», которая определяет строгие правила взаимодействия между агентом и средой разработки. Такой подход позволяет структурировать процесс принятия решений, превращая хаотичные вызовы инструментов в последовательные и предсказуемые операции. arXiv · Память и RAG Метод накопления преимуществ для самообучения ИИ-агентов Исследователи представили новый подход к обучению ИИ-агентов, основанный на механизме накопления маржинальных преимуществ (Marginal Advantage Accumulation). Метод решает проблему противоречивой обратной связи, возникающей при пакетной дистилляции траекторий, когда одни и те же операции с памятью получают разные оценки эффективности в разных итерациях обучения. Hacker News · Оценка и бенчмарки Методологии тестирования агентных систем в интерфейсе командной строки Оценка эффективности агентных систем, работающих через интерфейс командной строки (CLI), требует комплексного подхода, выходящего за рамки стандартных тестов для языковых моделей. Основная сложность заключается в проверке способности агента взаимодействовать с файловой системой, выполнять системные вызовы и корректно интерпретировать результаты выполнения команд в реальном времени. Hacker News · Оркестрация агентов Simple-Agent: новый подход к автоматизации разработки ПО Исследователи представили Simple-Agent — фреймворк для создания автономных ИИ-агентов, ориентированный на решение задач по написанию и отладке программного кода. В основе проекта лежит принцип минимизации сложности архитектуры: вместо многоуровневых систем оркестрации разработчики сделали ставку на прямое взаимодействие модели с инструментами разработки. Такой подход позволил достичь высоких показателей производительности на популярных бенчмарках, включая SWE-bench Pro и Verified. arXiv · Машинное обучение Модельно-ориентированный подход к созданию сред для обучения с подкреплением Исследователи представили новый подход к разработке виртуальных сред, предназначенных для обучения агентов с подкреплением (RL). Традиционно создание таких систем требует значительных затрат времени, так как для успешной сходимости алгоритмов агентам необходимо тренироваться в множестве схожих, но вариативных условий. Авторы работы предлагают использовать модельно-ориентированную методологию, которая позволяет автоматизировать генерацию семейств сред, сохраняя при этом их функциональную близость. Hacker News · Инфраструктура для агентов Автоматизация десктопных приложений с помощью ИИ-агентов Разработчики представили инструмент, позволяющий ИИ-агентам взаимодействовать с графическим интерфейсом обычных десктопных приложений. Система берет на себя управление мышью и клавиатурой, выполняя действия непосредственно в операционной системе. Это позволяет автоматизировать рутинные задачи, которые ранее требовали участия человека, такие как заполнение форм, перенос данных между программами или навигация по сложным меню. arXiv · Оркестрация агентов Новый подход к маршрутизации множества ИИ-агентов Исследователи из Университета Карнеги-Меллон представили новую работу, посвящённую компиляционным методам в задачах маршрутизации множества агентов (MAPF). В отличие от классических подходов, где все агенты должны достичь заданных целей без столкновений, авторы рассматривают варианты с разными требованиями к агентам.

← Все материалы