Hacker News · 15.06.2026 ·Оценка и бенчмарки

BEAVER: новый бенчмарк для оценки LLM в Text-to-SQL

Исследователи представили BEAVER — новый бенчмарк для оценки способности языковых моделей (LLM) преобразовывать текстовые запросы в SQL. Это важный шаг в развитии ИИ-агентов, которые могут работать с базами данных, так как Text-to-SQL является критически важной задачей для автоматизации аналитики и управления данными.

BEAVER включает в себя 2 500 сложных SQL-запросов, которые охватывают широкий спектр сценариев, включая сложные агрегации, вложенные запросы и операции с несколькими таблицами. Это делает его одним из самых сложных и разнообразных бенчмарков в этой области.

Создатели BEAVER утверждают, что их бенчмарк позволяет более точно оценивать производительность моделей, чем существующие аналоги. Это особенно важно для разработчиков ИИ-агентов, так как позволяет выбирать наиболее подходящие модели для интеграции в свои системы.

BEAVER уже используется для оценки нескольких популярных моделей, включая GPT-4 и PaLM 2. Результаты показывают, что даже самые передовые модели имеют значительные проблемы с обработкой сложных SQL-запросов. Это подчеркивает необходимость дальнейших исследований и разработок в этой области.

Для команды, работающей над ИИ-агентом Jarv, BEAVER может стать полезным инструментом для оценки и сравнения моделей, которые могут быть использованы для работы с базами данных. Это поможет обеспечить высокую точность и надежность агентов в выполнении задач, связанных с анализом данных.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Оценка и бенчмарки Microsoft представила BenchPress для прогнозирования результатов LLM на бенчмарках Microsoft выпустила инструмент BenchPress, позволяющий предсказывать производительность больших языковых моделей на различных бенчмарках без необходимости их полного тестирования. Система использует мета-обучение для оценки способностей модели на основе ограниченного набора данных, что значительно сокращает вычислительные затраты и время, требуемое для оценки новых архитектур и версий моделей в процессе их разработки. Hugging Face - Blog · Оценка и бенчмарки VAKRA: новый бенчмарк для тестирования ИИ-агентов Исследователи из IBM Research представили VAKRA — новый бенчмарк для оценки способностей ИИ-агентов к логическому мышлению, использованию инструментов и обработке ошибок. В отличие от существующих тестов, VAKRA фокусируется на комплексных сценариях, требующих от агентов не только генерации текста, но и выполнения последовательных действий с анализом промежуточных результатов. arXiv · Оценка и бенчмарки Spider 2.0-AIFunc: новый бенчмарк для оценки AI-native SQL запросов Исследователи представили Spider 2.0-AIFunc — первый бенчмарк для оценки способности LLM генерировать SQL-запросы, использующие встроенные функции ИИ. Современные облачные платформы позволяют выполнять классификацию, анализ тональности и поиск сходства прямо внутри SQL, однако традиционные тесты не учитывают этот функционал. Новый набор данных закрывает этот пробел, предоставляя инструменты для проверки моделей в реальных рабочих процессах. Hacker News · Оценка и бенчмарки Представлен бенчмарк AI Reverse Engineering Benchmark для оценки навыков ИИ в обратной разработке Исследователи представили AI Reverse Engineering Benchmark (AREB) — специализированный набор тестов для оценки способности больших языковых моделей к анализу и декомпиляции программного кода. Бенчмарк фокусируется на задачах восстановления логики алгоритмов, понимании запутанного кода и поиске уязвимостей, что критически важно для автоматизации процессов кибербезопасности и глубокого анализа программного обеспечения с помощью ИИ. Hacker News · Оценка и бенчмарки Wolfram запустила проект по глубокому бенчмаркингу LLM Компания Wolfram Research представила проект для комплексной оценки возможностей больших языковых моделей. В отличие от стандартных тестов, методология фокусируется на проверке способности ИИ к вычислениям, логическим рассуждениям и работе с точными данными через интеграцию с вычислительным движком Wolfram|Alpha. Проект предоставляет прозрачные метрики для сравнения производительности ведущих моделей в решении задач, требующих высокой точности. Hacker News · Оценка и бенчмарки Первые результаты Legal Agent Benchmark для оценки ИИ-агентов Команда исследователей под руководством Габриэля Перейры представила первые результаты Legal Agent Benchmark (LAB) — нового бенчмарка для оценки способностей ИИ-агентов решать юридические задачи. Бенчмарк включает в себя набор тестов, имитирующих реальные юридические сценарии, такие как анализ договоров, подготовка документов и консультирование по правовым вопросам. arXiv · Оценка и бенчмарки BayesAME: новый метод для эффективной оценки LLM через активное обучение Исследователи представили BayesAME — байесовский метод активной оценки моделей, позволяющий прогнозировать общую производительность LLM на бенчмарках без необходимости прогона полного набора данных. Алгоритм динамически определяет оптимальный размер подмножества (коресета) для тестирования, минимизируя вычислительные затраты и время, сохраняя при этом высокую точность оценки, что критически важно для быстрой итерации при разработке и дообучении генеративных систем. Hacker News · Оценка и бенчмарки Как превзойти Claude в задачах Text-to-SQL: разбор стратегии на бенчмарке BIRD Исследователи Motley AI проанализировали способы улучшения результатов Text-to-SQL, используя бенчмарк BIRD. В ходе экспериментов удалось превзойти показатели стандартных моделей вроде Claude 3.5 Sonnet за счет оптимизации промптов и внедрения специализированных техник обработки запросов. Работа демонстрирует, что даже мощные LLM требуют кастомных подходов для достижения максимальной точности при работе с базами данных. Hacker News · Оценка и бенчмарки Models Pie: визуализация баланса скорости, цены и качества LLM Сервис Models Pie представил интерактивный инструмент для сравнения популярных языковых моделей на основе трех ключевых метрик: скорости генерации, стоимости токенов и качества ответов. Платформа агрегирует данные о производительности актуальных LLM, позволяя разработчикам и бизнесу подбирать оптимальное решение под конкретные задачи, где критически важен баланс между затратами на инференс и временем отклика. Hacker News · Модели и релизы GLM 5.2 показал высокие результаты в бенчмарках Новая версия модели GLM 5.2 продемонстрировала впечатляющие результаты в различных бенчмарках. Согласно последним тестам, модель превзошла своих предшественников по ряду ключевых метрик, включая точность и скорость обработки запросов.

← Все материалы