Оценка и бенчмарки

Как правильно оценивать ИИ-агентов NVIDIA Technical Blog · 19.05.2026 В статье на NVIDIA Developer разбирают ключевые различия между оценкой моделей и оценкой агентов. Авторы подчёркивают, что, хотя оба процесса связаны, они решают разные задачи. Оценка модели фокусируется на её способностях, тогда как оценка агента требует анализа его поведения в реальных сценариях. VAKRA: новый бенчмарк для тестирования ИИ-агентов Hugging Face - Blog · 15.04.2026 Исследователи из IBM Research представили VAKRA — новый бенчмарк для оценки способностей ИИ-агентов к логическому мышлению, использованию инструментов и обработке ошибок. В отличие от существующих тестов, VAKRA фокусируется на комплексных сценариях, требующих от агентов не только генерации текста, но и выполнения последовательных действий с анализом промежуточных результатов. Как определить достаточное количество экспертов для оценки ИИ The latest research from Google · 31.03.2026 Google Research опубликовал исследование, посвящённое вопросу: сколько экспертов нужно для объективной оценки качества ИИ-моделей. В статье рассматриваются методы статистического анализа, которые позволяют определить минимальное количество рейтингов (оценок), необходимых для достижения надёжных результатов. Salesforce представил Slackbot как полноценного ИИ-агента AI | VentureBeat · 13.01.2026 Salesforce запустил переработанную версию Slackbot, превратив его из простого инструмента уведомлений в полноценного ИИ-агента. Новый Slackbot способен искать корпоративные данные, составлять документы и выполнять действия от имени сотрудников. Это значительный шаг в развитии корпоративных ИИ-агентов, демонстрирующий, как крупные компании интегрируют ИИ в рабочие процессы.