Оценка и бенчмарки

Проблемы с бенчмарками для промптов Hacker News · 16.06.2026 Бенчмарки для оценки качества промптов часто сталкиваются с рядом проблем, которые могут искажать результаты. В новой статье рассматриваются ключевые аспекты, такие как избыточность данных и некорректные методы тестирования. Как оценивают LLM-судей с помощью возмущающих тестов Hacker News · 16.06.2026 Компания Forus представила метод оценки LLM-судей на основе возмущающих тестов. Подход позволяет проверять устойчивость моделей к различным типам искажений и ошибок, что критично для их использования в агентных системах. Ale-V1 Leaderboard: новый стандарт для тестирования ИИ-агентов Hacker News · 16.06.2026 На сайте agents-last-exam.org появился Ale-V1 Leaderboard — рейтинг, который оценивает способности ИИ-агентов решать сложные задачи. Это первый в своём роде проект, который систематически тестирует агентов на основе стандартных критериев, что позволяет сравнивать их эффективность и выявлять сильные и слабые стороны. MistralAI Le Chaton Fat лидирует в бенчмарке для веб-разработки Hacker News · 16.06.2026 MistralAI представила модель Le Chaton Fat, которая показала лучшие результаты в бенчмарке для веб-разработки. Это важно, так как веб-разработка — один из ключевых сценариев для ИИ-агентов, где требуется понимание кода, структуры сайтов и способность генерировать и исправлять код. Deep-XPIA: бенчмарк для тестирования уязвимостей к инъекциям в промптах Hacker News · 16.06.2026 Команда Freyzo представила Deep-XPIA — первый бенчмарк для оценки устойчивости многоагентных ИИ-систем к атакам через инъекции в промптах. Это важный шаг в развитии безопасности ИИ-агентов, так как инъекции в промптах остаются одной из ключевых уязвимостей, особенно в системах с открытым доступом к пользовательским данным. Large Text Compression Benchmark сравнивает алгоритмы сжатия для больших текстов Hacker News · 15.06.2026 Исследовательский проект Large Text Compression Benchmark представляет собой сравнительный анализ различных алгоритмов сжатия текста. В рамках проекта оцениваются эффективность и производительность алгоритмов при работе с большими объемами текстовой информации. Это особенно важно для разработчиков ИИ-агентов, так как сжатие текста может значительно снизить нагрузку на память и ускорить обработку данных. Языковые модели могут оценивать ценность своих стратегий arXiv · 15.06.2026 Исследователи изучили, способны ли языковые модели оценивать ценность своих текущих стратегий, то есть вероятность достижения целей. Для этого они использовали синтетические данные обучения с подкреплением и построили "ось ценности" для модели Qwen3-8B. Оказалось, что активации вдоль этой оси различают высокий и низкий уровень уверенности, а также успешные и неудачные стратегии. MetaSyn: новый датасет для тестирования ИИ-агентов на мета-анализах arXiv · 15.06.2026 Исследователи представили новый датасет MetaSyn, предназначенный для оценки способностей ИИ-агентов проводить мета-анализ — сложный процесс синтеза данных, включающий поиск литературы, отбор исследований и статистический анализ. Этот процесс требует системного и проверяемого подхода, что делает его идеальным для тестирования научного мышления агентов. Как аудит решений улучшает прозрачность оценки ИИ arXiv · 15.06.2026 Исследователи из MIT и других ведущих университетов предложили новый подход к аудиту публичных оценок ИИ-моделей. В статье, опубликованной на arXiv, они утверждают, что текущие рейтинги ИИ часто воспринимаются как окончательные, но на самом деле они представляют собой выборочные временные ряды, искажённые правилами отчётности, пересмотром бенчмарков и пропусками данных. BEAVER: новый бенчмарк для оценки LLM в Text-to-SQL Hacker News · 15.06.2026 Исследователи представили BEAVER — новый бенчмарк для оценки способности языковых моделей (LLM) преобразовывать текстовые запросы в SQL. Это важный шаг в развитии ИИ-агентов, которые могут работать с базами данных, так как Text-to-SQL является критически важной задачей для автоматизации аналитики и управления данными. Как оценивать эффективность ИИ-агентов Hacker News · 14.06.2026 Разработчики ИИ-агентов сталкиваются с серьёзной проблемой: отсутствием стандартов для измерения их стоимости и эффективности. В отличие от традиционных программных продуктов, где метрики успеха относительно чёткие, агентские системы требуют комплексного подхода к оценке. Это включает не только производительность, но и качество взаимодействия с пользователями, экономическую эффективность и долгосрочную ценность. Burpwn: инструмент для тестирования безопасности ИИ-агентов Hacker News · 14.06.2026 Разработчики из сообщества Own2pwn представили Burpwn — инструмент для тестирования безопасности ИИ-агентов, вдохновленный популярным Burp Suite. Burpwn позволяет анализировать взаимодействие агентов с внешними системами, выявляя уязвимости и потенциальные точки входа для атак. Как оценивать ИИ-агентов: полный цикл тестирования Hacker News · 14.06.2026 Разработка ИИ-агентов требует не только создания функциональных модулей, но и их тщательного тестирования. В статье Peter Baumgartner подробно рассматривается подход к end-to-end оценке агентов, который включает в себя тестирование на всех этапах их работы — от ввода данных до выполнения задач и генерации результатов. Автор подчеркивает важность комплексного подхода, который позволяет выявить слабые места и улучшить общую производительность агентов. Многомодальные LLM как судьи для оценки агентов Hacker News · 14.06.2026 В последнее время всё больше внимания уделяется использованию LLM (Large Language Models) в качестве судей для оценки качества работы других ИИ-агентов. В статье на Substack автор Yinghong Lan рассматривает концепцию Multimodal LLM-as-a-Judge, которая позволяет оценивать не только текстовые, но и мультимодальные данные, такие как изображения и видео. Первые результаты Legal Agent Benchmark для оценки ИИ-агентов Hacker News · 14.06.2026 Команда исследователей под руководством Габриэля Перейры представила первые результаты Legal Agent Benchmark (LAB) — нового бенчмарка для оценки способностей ИИ-агентов решать юридические задачи. Бенчмарк включает в себя набор тестов, имитирующих реальные юридические сценарии, такие как анализ договоров, подготовка документов и консультирование по правовым вопросам. Buildermark: инструмент для оценки кода, созданного ИИ-агентами Hacker News · 13.06.2026 Buildermark — это новый инструмент, который позволяет измерять, какая часть вашего кода была написана с помощью ИИ-агентов. Это особенно актуально для разработчиков, которые используют ИИ-ассистентов для автоматизации части своей работы. Buildermark анализирует код и определяет, какие фрагменты были созданы с помощью ИИ, что помогает оценить эффективность и качество работы агентов. NVIDIA создала первый бенчмарк для агентов и лидирует в кодинге NVIDIA Technical Blog · 12.06.2026 NVIDIA представила первый бенчмарк для оценки производительности ИИ-агентов, который учитывает сложность современных инференс-задач. До этого в индустрии не было единого стандарта для измерения эффективности агентов, особенно в задачах, требующих многократных вызовов моделей и сложной оркестрации. LoSoNA: новый бенчмарк для адаптации ИИ-агентов к социальным нормам в чатах arXiv · 12.06.2026 Исследователи представили LoSoNA — первый бенчмарк, оценивающий способность ИИ-агентов адаптироваться к неявным социальным нормам в групповых чатах. В отличие от традиционных тестов на понимание контекста, LoSoNA фокусируется на динамических социальных правилах, которые формируются в онлайн-диалогах. Например, в одном сценарии агент должен понять, что в группе принято избегать обсуждения политики, а в другом — адаптироваться к шуткам и иронии. Olmo-Eval: инструмент для оценки моделей в цикле разработки Hugging Face - Blog · 12.06.2026 AllenAI представила Olmo-Eval — инструмент для оценки моделей в процессе их разработки. Это решение позволяет автоматизировать и ускорить процесс тестирования моделей, что особенно важно для создания ИИ-агентов. Olmo-Eval интегрируется в существующие пайплайны разработки и предоставляет детальные метрики производительности моделей. AgentBeats: новый подход к оценке ИИ-агентов arXiv · 11.06.2026 Исследователи из Arxiv предложили новый подход к оценке ИИ-агентов, который решает проблему фрагментированности тестирования. В статье "AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility" авторы отмечают, что существующие бенчмарки часто зависят от фиксированных, ориентированных на LLM, тестовых фреймворков. Это создает несоответствие между тестовыми и производственными условиями, а также ограничивает справедливое сравнение различных архитектур агентов. Новые протоколы для оценки уверенности в многоагентных системах arXiv · 11.06.2026 Исследователи из MIT и Стэнфорда предложили новый подход к оценке уверенности в многоагентных системах. В работе, опубликованной на arXiv, они демонстрируют, как агрегировать сигналы уверенности от нескольких агентов для повышения надежности и прозрачности принятия решений. OpenAI представила гайдлайн для проверки ИИ от третьих сторон OpenAI News · 28.05.2026 OpenAI выпустила руководство по проведению независимых оценок ИИ-систем. Документ охватывает ключевые аспекты: проверку возможностей моделей, их защищенность и достоверность результатов. Особое внимание уделено фронтирным системам, которые могут иметь значительное влияние на общество. Как правильно оценивать ИИ-агентов NVIDIA Technical Blog · 19.05.2026 В статье на NVIDIA Developer разбирают ключевые различия между оценкой моделей и оценкой агентов. Авторы подчёркивают, что, хотя оба процесса связаны, они решают разные задачи. Оценка модели фокусируется на её способностях, тогда как оценка агента требует анализа его поведения в реальных сценариях. VAKRA: новый бенчмарк для тестирования ИИ-агентов Hugging Face - Blog · 15.04.2026 Исследователи из IBM Research представили VAKRA — новый бенчмарк для оценки способностей ИИ-агентов к логическому мышлению, использованию инструментов и обработке ошибок. В отличие от существующих тестов, VAKRA фокусируется на комплексных сценариях, требующих от агентов не только генерации текста, но и выполнения последовательных действий с анализом промежуточных результатов.