Оценка и бенчмарки
Проблемы с бенчмарками для промптов
Бенчмарки для оценки качества промптов часто сталкиваются с рядом проблем, которые могут искажать результаты. В новой статье рассматриваются ключевые аспекты, такие как избыточность данных и некорректные методы тестирования.
Как оценивают LLM-судей с помощью возмущающих тестов
Компания Forus представила метод оценки LLM-судей на основе возмущающих тестов. Подход позволяет проверять устойчивость моделей к различным типам искажений и ошибок, что критично для их использования в агентных системах.
Ale-V1 Leaderboard: новый стандарт для тестирования ИИ-агентов
На сайте agents-last-exam.org появился Ale-V1 Leaderboard — рейтинг, который оценивает способности ИИ-агентов решать сложные задачи. Это первый в своём роде проект, который систематически тестирует агентов на основе стандартных критериев, что позволяет сравнивать их эффективность и выявлять сильные и слабые стороны.
MistralAI Le Chaton Fat лидирует в бенчмарке для веб-разработки
MistralAI представила модель Le Chaton Fat, которая показала лучшие результаты в бенчмарке для веб-разработки. Это важно, так как веб-разработка — один из ключевых сценариев для ИИ-агентов, где требуется понимание кода, структуры сайтов и способность генерировать и исправлять код.
Deep-XPIA: бенчмарк для тестирования уязвимостей к инъекциям в промптах
Команда Freyzo представила Deep-XPIA — первый бенчмарк для оценки устойчивости многоагентных ИИ-систем к атакам через инъекции в промптах. Это важный шаг в развитии безопасности ИИ-агентов, так как инъекции в промптах остаются одной из ключевых уязвимостей, особенно в системах с открытым доступом к пользовательским данным.
Large Text Compression Benchmark сравнивает алгоритмы сжатия для больших текстов
Исследовательский проект Large Text Compression Benchmark представляет собой сравнительный анализ различных алгоритмов сжатия текста. В рамках проекта оцениваются эффективность и производительность алгоритмов при работе с большими объемами текстовой информации. Это особенно важно для разработчиков ИИ-агентов, так как сжатие текста может значительно снизить нагрузку на память и ускорить обработку данных.
Языковые модели могут оценивать ценность своих стратегий
Исследователи изучили, способны ли языковые модели оценивать ценность своих текущих стратегий, то есть вероятность достижения целей. Для этого они использовали синтетические данные обучения с подкреплением и построили "ось ценности" для модели Qwen3-8B. Оказалось, что активации вдоль этой оси различают высокий и низкий уровень уверенности, а также успешные и неудачные стратегии.
MetaSyn: новый датасет для тестирования ИИ-агентов на мета-анализах
Исследователи представили новый датасет MetaSyn, предназначенный для оценки способностей ИИ-агентов проводить мета-анализ — сложный процесс синтеза данных, включающий поиск литературы, отбор исследований и статистический анализ. Этот процесс требует системного и проверяемого подхода, что делает его идеальным для тестирования научного мышления агентов.
Как аудит решений улучшает прозрачность оценки ИИ
Исследователи из MIT и других ведущих университетов предложили новый подход к аудиту публичных оценок ИИ-моделей. В статье, опубликованной на arXiv, они утверждают, что текущие рейтинги ИИ часто воспринимаются как окончательные, но на самом деле они представляют собой выборочные временные ряды, искажённые правилами отчётности, пересмотром бенчмарков и пропусками данных.
BEAVER: новый бенчмарк для оценки LLM в Text-to-SQL
Исследователи представили BEAVER — новый бенчмарк для оценки способности языковых моделей (LLM) преобразовывать текстовые запросы в SQL. Это важный шаг в развитии ИИ-агентов, которые могут работать с базами данных, так как Text-to-SQL является критически важной задачей для автоматизации аналитики и управления данными.
Как оценивать эффективность ИИ-агентов
Разработчики ИИ-агентов сталкиваются с серьёзной проблемой: отсутствием стандартов для измерения их стоимости и эффективности. В отличие от традиционных программных продуктов, где метрики успеха относительно чёткие, агентские системы требуют комплексного подхода к оценке. Это включает не только производительность, но и качество взаимодействия с пользователями, экономическую эффективность и долгосрочную ценность.
Burpwn: инструмент для тестирования безопасности ИИ-агентов
Разработчики из сообщества Own2pwn представили Burpwn — инструмент для тестирования безопасности ИИ-агентов, вдохновленный популярным Burp Suite. Burpwn позволяет анализировать взаимодействие агентов с внешними системами, выявляя уязвимости и потенциальные точки входа для атак.
Как оценивать ИИ-агентов: полный цикл тестирования
Разработка ИИ-агентов требует не только создания функциональных модулей, но и их тщательного тестирования. В статье Peter Baumgartner подробно рассматривается подход к end-to-end оценке агентов, который включает в себя тестирование на всех этапах их работы — от ввода данных до выполнения задач и генерации результатов. Автор подчеркивает важность комплексного подхода, который позволяет выявить слабые места и улучшить общую производительность агентов.
Многомодальные LLM как судьи для оценки агентов
В последнее время всё больше внимания уделяется использованию LLM (Large Language Models) в качестве судей для оценки качества работы других ИИ-агентов. В статье на Substack автор Yinghong Lan рассматривает концепцию Multimodal LLM-as-a-Judge, которая позволяет оценивать не только текстовые, но и мультимодальные данные, такие как изображения и видео.
Первые результаты Legal Agent Benchmark для оценки ИИ-агентов
Команда исследователей под руководством Габриэля Перейры представила первые результаты Legal Agent Benchmark (LAB) — нового бенчмарка для оценки способностей ИИ-агентов решать юридические задачи. Бенчмарк включает в себя набор тестов, имитирующих реальные юридические сценарии, такие как анализ договоров, подготовка документов и консультирование по правовым вопросам.
Buildermark: инструмент для оценки кода, созданного ИИ-агентами
Buildermark — это новый инструмент, который позволяет измерять, какая часть вашего кода была написана с помощью ИИ-агентов. Это особенно актуально для разработчиков, которые используют ИИ-ассистентов для автоматизации части своей работы. Buildermark анализирует код и определяет, какие фрагменты были созданы с помощью ИИ, что помогает оценить эффективность и качество работы агентов.
NVIDIA создала первый бенчмарк для агентов и лидирует в кодинге
NVIDIA представила первый бенчмарк для оценки производительности ИИ-агентов, который учитывает сложность современных инференс-задач. До этого в индустрии не было единого стандарта для измерения эффективности агентов, особенно в задачах, требующих многократных вызовов моделей и сложной оркестрации.
LoSoNA: новый бенчмарк для адаптации ИИ-агентов к социальным нормам в чатах
Исследователи представили LoSoNA — первый бенчмарк, оценивающий способность ИИ-агентов адаптироваться к неявным социальным нормам в групповых чатах. В отличие от традиционных тестов на понимание контекста, LoSoNA фокусируется на динамических социальных правилах, которые формируются в онлайн-диалогах. Например, в одном сценарии агент должен понять, что в группе принято избегать обсуждения политики, а в другом — адаптироваться к шуткам и иронии.
Olmo-Eval: инструмент для оценки моделей в цикле разработки
AllenAI представила Olmo-Eval — инструмент для оценки моделей в процессе их разработки. Это решение позволяет автоматизировать и ускорить процесс тестирования моделей, что особенно важно для создания ИИ-агентов. Olmo-Eval интегрируется в существующие пайплайны разработки и предоставляет детальные метрики производительности моделей.
AgentBeats: новый подход к оценке ИИ-агентов
Исследователи из Arxiv предложили новый подход к оценке ИИ-агентов, который решает проблему фрагментированности тестирования. В статье "AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility" авторы отмечают, что существующие бенчмарки часто зависят от фиксированных, ориентированных на LLM, тестовых фреймворков. Это создает несоответствие между тестовыми и производственными условиями, а также ограничивает справедливое сравнение различных архитектур агентов.
Новые протоколы для оценки уверенности в многоагентных системах
Исследователи из MIT и Стэнфорда предложили новый подход к оценке уверенности в многоагентных системах. В работе, опубликованной на arXiv, они демонстрируют, как агрегировать сигналы уверенности от нескольких агентов для повышения надежности и прозрачности принятия решений.
OpenAI представила гайдлайн для проверки ИИ от третьих сторон
OpenAI выпустила руководство по проведению независимых оценок ИИ-систем. Документ охватывает ключевые аспекты: проверку возможностей моделей, их защищенность и достоверность результатов. Особое внимание уделено фронтирным системам, которые могут иметь значительное влияние на общество.
Как правильно оценивать ИИ-агентов
В статье на NVIDIA Developer разбирают ключевые различия между оценкой моделей и оценкой агентов. Авторы подчёркивают, что, хотя оба процесса связаны, они решают разные задачи. Оценка модели фокусируется на её способностях, тогда как оценка агента требует анализа его поведения в реальных сценариях.
VAKRA: новый бенчмарк для тестирования ИИ-агентов
Исследователи из IBM Research представили VAKRA — новый бенчмарк для оценки способностей ИИ-агентов к логическому мышлению, использованию инструментов и обработке ошибок. В отличие от существующих тестов, VAKRA фокусируется на комплексных сценариях, требующих от агентов не только генерации текста, но и выполнения последовательных действий с анализом промежуточных результатов.