Оценка и бенчмарки
Как правильно оценивать ИИ-агентов
В статье на NVIDIA Developer разбирают ключевые различия между оценкой моделей и оценкой агентов. Авторы подчёркивают, что, хотя оба процесса связаны, они решают разные задачи. Оценка модели фокусируется на её способностях, тогда как оценка агента требует анализа его поведения в реальных сценариях.
VAKRA: новый бенчмарк для тестирования ИИ-агентов
Исследователи из IBM Research представили VAKRA — новый бенчмарк для оценки способностей ИИ-агентов к логическому мышлению, использованию инструментов и обработке ошибок. В отличие от существующих тестов, VAKRA фокусируется на комплексных сценариях, требующих от агентов не только генерации текста, но и выполнения последовательных действий с анализом промежуточных результатов.
Как определить достаточное количество экспертов для оценки ИИ
Google Research опубликовал исследование, посвящённое вопросу: сколько экспертов нужно для объективной оценки качества ИИ-моделей. В статье рассматриваются методы статистического анализа, которые позволяют определить минимальное количество рейтингов (оценок), необходимых для достижения надёжных результатов.
Salesforce представил Slackbot как полноценного ИИ-агента
Salesforce запустил переработанную версию Slackbot, превратив его из простого инструмента уведомлений в полноценного ИИ-агента. Новый Slackbot способен искать корпоративные данные, составлять документы и выполнять действия от имени сотрудников. Это значительный шаг в развитии корпоративных ИИ-агентов, демонстрирующий, как крупные компании интегрируют ИИ в рабочие процессы.