Hacker News · 24.06.2026 ·Инфраструктура для агентов

Microsoft представила Agent Harness и Claw для тестирования ИИ-агентов

Microsoft выпустила инструменты Agent Harness и Claw, предназначенные для систематического тестирования и оценки ИИ-агентов. Эти решения позволяют разработчикам автоматизировать проверку агентных систем в контролируемых средах, выявлять ошибки в логике принятия решений и оценивать производительность моделей при выполнении сложных многошаговых задач, что критически важно для создания надежных корпоративных ИИ-решений.

Agent Harness выступает в роли среды исполнения, которая изолирует агента и предоставляет ему необходимые инструменты для взаимодействия с внешними системами. Это позволяет модели работать в предсказуемых условиях, где можно отслеживать каждый шаг выполнения задачи. Такой подход помогает разработчикам воспроизводить сценарии сбоев и анализировать цепочки рассуждений, которые привели к неверному результату.

Claw дополняет этот процесс, предоставляя фреймворк для оценки качества работы агента. Он позволяет задавать критерии успеха и метрики, по которым система автоматически выставляет оценки действиям агента. Вместе эти инструменты закрывают потребность в стандартизированном тестировании, которое до этого момента часто ограничивалось ручной проверкой или разрозненными скриптами.

Ключевые факты

Agent Harness обеспечивает изоляцию агента для безопасного тестирования в контролируемой среде.
Claw предоставляет систему метрик для автоматизированной оценки успешности выполнения задач.
Инструменты ориентированы на отладку многошаговых процессов и цепочек рассуждений (Chain-of-Thought).
Решения направлены на повышение надежности агентов при интеграции в бизнес-процессы.
Разработка представлена в официальном блоге Microsoft, посвященном агентным фреймворкам.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Оркестрация агентов Agent Harness Lab сравнивает фреймворки для агентов с заменяемыми инструментами Agent Harness Lab — это проект, который позволяет сравнивать различные фреймворки для создания ИИ-агентов. Платформа поддерживает заменяемые инструменты, что упрощает тестирование и выбор оптимальных решений для конкретных задач. Hacker News · Инфраструктура для агентов Microsoft представила Agent Package Manager для управления агентными компонентами Microsoft выпустила Agent Package Manager (APM) — инструмент для стандартизации и управления компонентами ИИ-агентов. Решение позволяет разработчикам упаковывать, версионировать и распространять агентные артефакты, упрощая интеграцию различных модулей в единые системы. APM призван решить проблему фрагментации при создании сложных агентных архитектур, обеспечивая унифицированный подход к работе с зависимостями и конфигурациями в агентных проектах. arXiv · Оценка и бенчмарки MacAgentBench: новый стандарт оценки ИИ-агентов для macOS Исследователи представили MacAgentBench — специализированный бенчмарк для оценки возможностей ИИ-агентов при работе в среде macOS. В отличие от предыдущих тестов, которые фокусировались на простых бинарных задачах, новый фреймворк учитывает реальные сценарии автоматизации рабочего стола. Это позволяет точнее измерять эффективность агентов, использующих современные инструменты для управления интерфейсом и системными процессами. NVIDIA Technical Blog · Инференс и железо Новые инструменты от Microsoft и NVIDIA для запуска ИИ-агентов на Windows Microsoft и NVIDIA представили новые инструменты, которые позволяют запускать ИИ-агентов на Windows ПК. Это важный шаг для разработчиков, так как ранее подобные решения требовали сложной настройки и мощного оборудования. Hacker News · Безопасность и алайнмент ClawMoat: изоляция и безопасность для ИИ-агентов ClawMoat — это новый фреймворк для изоляции и безопасного исполнения ИИ-агентов, разработанный после выхода Fable 5. Он предоставляет механизмы containment (ограничения) для агентов, что позволяет запускать их в изолированной среде, предотвращая несанкционированный доступ к системам и данным. Hacker News · Разработка и инструменты Как ИИ-агенты меняют подходы к разработке ПО В статье на Musicallyut.xyz рассматривается, как внедрение ИИ-агентов трансформирует процессы разработки программного обеспечения. Авторы подчеркивают, что агенты не только автоматизируют рутинные задачи, но и предлагают новые подходы к проектированию и тестированию кода. Например, агенты могут анализировать код на этапе разработки, выявляя потенциальные ошибки и предлагая оптимизации ещё до запуска. Это особенно актуально для команд, работающих над сложными системами, где ручное тестирование и отладка занимают значительное время. arXiv · Оценка и бенчмарки EnterpriseClawBench: новый стандарт оценки корпоративных ИИ-агентов Исследователи представили EnterpriseClawBench — специализированный бенчмарк для оценки эффективности ИИ-агентов в реальных рабочих условиях. В отличие от синтетических тестов, этот набор данных сформирован на основе анализа реальных сессий взаимодействия сотрудников с корпоративными системами. В базу вошли 852 воспроизводимые задачи, которые охватывают типичные офисные сценарии: работу с разнородными файлами, вызов внешних инструментов и создание бизнес-артефактов. Hacker News · Оркестрация агентов Simple-Agent: новый подход к автоматизации разработки ПО Исследователи представили Simple-Agent — фреймворк для создания автономных ИИ-агентов, ориентированный на решение задач по написанию и отладке программного кода. В основе проекта лежит принцип минимизации сложности архитектуры: вместо многоуровневых систем оркестрации разработчики сделали ставку на прямое взаимодействие модели с инструментами разработки. Такой подход позволил достичь высоких показателей производительности на популярных бенчмарках, включая SWE-bench Pro и Verified. Hacker News · Оценка и бенчмарки Hex представила лабораторию для оценки ИИ-агентов в аналитике данных Компания Hex запустила специализированную среду для тестирования и оценки производительности ИИ-агентов, работающих с данными. Инструмент позволяет количественно измерять точность выполнения SQL-запросов, корректность интерпретации аналитических выводов и надежность работы с кодом в реальных рабочих процессах. Лаборатория предоставляет стандартизированный набор метрик, которые помогают разработчикам выявлять слабые места в логике агентов до их внедрения в продакшн. Simon Willison's Weblog · Модели и релизы Microsoft представил две новые модели ИИ MAI-Thinking-1 и MAI-Code-1-Flash Microsoft объявил о выпуске двух новых текстовых моделей ИИ: MAI-Thinking-1 и MAI-Code-1-Flash. MAI-Thinking-1 — это модель для рассуждений с 1 триллионом параметров, из которых 35 миллиардов активны. Она доступна для "выбранных ранних партнеров". MAI-Code-1-Flash, с 137 миллиардами параметров и 5 миллиардами активных, специально разработана для GitHub Copilot и VS Code, чтобы обеспечить высокую производительность и низкую стоимость. Эта модель уже начинает выкатываться для индивидуальных пользователей GitHub Copilot в Visual Studio Code.

← Все материалы