NVIDIA Technical Blog · 12.06.2026 ·Оценка и бенчмарки

NVIDIA создала первый бенчмарк для агентов и лидирует в кодинге

NVIDIA представила первый бенчмарк для оценки производительности ИИ-агентов, который учитывает сложность современных инференс-задач. До этого в индустрии не было единого стандарта для измерения эффективности агентов, особенно в задачах, требующих многократных вызовов моделей и сложной оркестрации.

Бенчмарк включает несколько ключевых метрик, таких как точность, скорость выполнения и способность к обучению. NVIDIA продемонстрировала лидерство в категории кодинга, что важно для разработчиков ИИ-агентов, так как кодинговые задачи часто требуют сложных цепочек вызовов и обработки контекста.

Компания использовала свои графические процессоры и оптимизированные библиотеки для достижения лучших результатов. Это важно для Jarv, так как позволяет оценить, насколько эффективны текущие подходы к инференсу и оркестрации, а также выявить области для улучшения.

Бенчмарк также включает тесты на способность агентов работать с различными типами данных и интегрироваться с внешними системами. Это особенно актуально для разработки агентов, которые должны взаимодействовать с множеством сервисов и API, что является ключевой задачей для Jarv.

Источник: NVIDIA Technical Blog

Обсудить с ИИ

Похожие материалы

NVIDIA Technical Blog · MCP и интеграции NVIDIA представляет сертифицированные навыки для ИИ-агентов NVIDIA анонсировала программу NVIDIA-Verified Agent Skills, направленную на обеспечение управления возможностями ИИ-агентов. Это инициатива призвана стандартизировать и сертифицировать навыки агентов, что позволит улучшить их безопасность, надежность и совместимость с различными платформами. arXiv · Оценка и бенчмарки GameEngineBench: новый стандарт для оценки кодинг-агентов в среде C++ Исследователи представили GameEngineBench — специализированный бенчмарк для тестирования кодинг-агентов в условиях реальных игровых движков на C++. В отличие от стандартных тестов на изолированных функциях, этот инструмент оценивает способность моделей работать со сложными системами рендеринга, физики и сетевого взаимодействия, что критически важно для разработки 3D-приложений в робототехнике, медицине и архитектуре. Hugging Face - Blog · Оценка и бенчмарки VAKRA: новый бенчмарк для тестирования ИИ-агентов Исследователи из IBM Research представили VAKRA — новый бенчмарк для оценки способностей ИИ-агентов к логическому мышлению, использованию инструментов и обработке ошибок. В отличие от существующих тестов, VAKRA фокусируется на комплексных сценариях, требующих от агентов не только генерации текста, но и выполнения последовательных действий с анализом промежуточных результатов. NVIDIA Technical Blog · Оценка и бенчмарки Как правильно оценивать ИИ-агентов В статье на NVIDIA Developer разбирают ключевые различия между оценкой моделей и оценкой агентов. Авторы подчёркивают, что, хотя оба процесса связаны, они решают разные задачи. Оценка модели фокусируется на её способностях, тогда как оценка агента требует анализа его поведения в реальных сценариях. NVIDIA Technical Blog · Инференс и железо NVIDIA Blackwell установила рекорд в инференсе LLM для финансов NVIDIA Blackwell установила новый рекорд в инференсе больших языковых моделей (LLM) для финансовых приложений, согласно результатам тестов STAC-AI. Новые графические процессоры Blackwell показали значительное улучшение производительности по сравнению с предыдущими поколениями, что делает их идеальными для обработки сложных финансовых данных. NVIDIA Technical Blog · Оркестрация агентов NVIDIA Vera CPU: новый стандарт для агентных нагрузок NVIDIA представила новую линейку процессоров Vera, разработанных специально для работы с агентными нагрузками в AI-фабриках. Эти процессоры предназначены для оптимизации задач, связанных с оркестрацией, планированием и выполнением действий ИИ-агентов, что делает их важным шагом в развитии инфраструктуры для агентов. NVIDIA Technical Blog · Оркестрация агентов Как кастомизировать ИИ-агентов для бизнеса NVIDIA опубликовала подробный гайд по созданию и настройке автономных ИИ-агентов для бизнес-задач. В статье рассматриваются ключевые техники, позволяющие адаптировать агентов под конкретные сценарии: от управления логистическими флотами до генерации кода и обработки поддержки. Особое внимание уделено архитектуре агентов, их взаимодействию с внешними системами и методам оптимизации производительности. NVIDIA Technical Blog · Оркестрация агентов Как добавить навык глубокого исследования в агентские фреймворки NVIDIA предложила способ расширить функциональность агентских фреймворков, таких как Claude Code, Codex и LangChain Deep Agents, за счёт добавления специализированного навыка глубокого исследования. Это позволяет агентам не только управлять сессиями и цепочками инструментов, но и выполнять сложные аналитические задачи, требующие глубокого понимания контекста и данных. NVIDIA Technical Blog · Оркестрация агентов NVIDIA Nemotron 3 Ultra для ускорения работы ИИ-агентов NVIDIA представила новую версию своей модели Nemotron 3 Ultra, оптимизированную для работы с долгосрочными ИИ-агентами. Это важный шаг в развитии инфраструктуры для агентов, так как модель позволяет значительно ускорить процесс инференса и повысить эффективность работы с контекстом. Hacker News · Оценка и бенчмарки Бенчмаркинг ИИ-агентов на кодовой базе Databricks из миллионов строк Databricks представила результаты тестирования современных ИИ-агентов на своей масштабной кодовой базе, насчитывающей миллионы строк. Исследование фокусируется на способности моделей решать сложные инженерные задачи в реальных условиях разработки, где требуется понимание контекста огромных репозиториев. Результаты показывают текущие возможности и ограничения автономных систем при работе с корпоративным кодом, требующим высокой точности и соблюдения архитектурных стандартов.

← Все материалы