arXiv · 18.06.2026 ·Оценка и бенчмарки

Расширение бенчмарка LiveCodeBench на несколько языков программирования

Исследователи представили Multi-LCB — расширенную версию бенчмарка LiveCodeBench, предназначенную для комплексной оценки навыков генерации кода у больших языковых моделей. Оригинальный проект LiveCodeBench стал стандартом в индустрии благодаря использованию актуальных задач с площадок для спортивного программирования и строгому контролю за утечкой данных, что позволяет объективно проверять способности моделей решать новые, ранее не встречавшиеся задачи.

Основное ограничение предыдущей версии заключалось в узкой специализации на языке Python. Multi-LCB снимает это ограничение, добавляя поддержку широкого спектра языков программирования. Такой подход позволяет более точно оценить кросс-языковую компетенцию моделей, выявляя различия в качестве генерации кода для разных синтаксисов и парадигм программирования.

Новый бенчмарк сохраняет методологию фильтрации задач по дате публикации, что критически важно для предотвращения «загрязнения» обучающих выборок моделей. Использование Multi-LCB дает разработчикам и исследователям возможность получать более репрезентативные данные о производительности LLM в реальных сценариях разработки, где часто требуется владение несколькими языками программирования одновременно.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Оценка и бенчмарки Microsoft представила BenchPress для прогнозирования результатов LLM на бенчмарках Microsoft выпустила инструмент BenchPress, позволяющий предсказывать производительность больших языковых моделей на различных бенчмарках без необходимости их полного тестирования. Система использует мета-обучение для оценки способностей модели на основе ограниченного набора данных, что значительно сокращает вычислительные затраты и время, требуемое для оценки новых архитектур и версий моделей в процессе их разработки. Hacker News · Оценка и бенчмарки LifeSciBench: новый стандарт оценки LLM в области наук о жизни Исследователи представили LifeSciBench — специализированный бенчмарк для оценки возможностей больших языковых моделей в решении задач экспертного уровня в биологии, химии и медицине. В отличие от общих тестов, этот набор данных сфокусирован на проверке способности моделей работать с узкоспециализированной научной терминологией, анализировать молекулярные структуры и интерпретировать сложные экспериментальные данные. Hacker News · Оценка и бенчмарки SlopCodeBench: новый стандарт для оценки качества генерации кода Представлен SlopCodeBench — специализированный бенчмарк для оценки способности LLM генерировать качественный и пригодный к использованию программный код. В отличие от классических тестов, ориентированных на прохождение тестов, этот инструмент фокусируется на выявлении «мусорного» кода (slop), который выглядит корректным синтаксически, но неэффективен или избыточен в реальных задачах разработки. arXiv · Оценка и бенчмарки AdvancedMathBench: новый стандарт для оценки математических способностей LLM Исследователи представили AdvancedMathBench — специализированный набор тестов для оценки навыков генерации и верификации доказательств в области высшей математики. В отличие от существующих бенчмарков, сфокусированных на школьных задачах, этот инструмент охватывает университетские дисциплины и использует строгие методы проверки логической корректности, устраняя проблему поверхностной оценки ответов, характерную для текущих моделей. Hacker News · Машинное обучение ParallelKernelBench: оценка способности LLM писать эффективные GPU-ядра Команда Together AI представила ParallelKernelBench — специализированный бенчмарк для оценки навыков больших языковых моделей в написании высокопроизводительного кода для параллельных вычислений на GPU. Исследование фокусируется на способности ИИ генерировать оптимизированные CUDA-ядра, что критически важно для ускорения обучения и инференса нейросетей, требующих эффективного распределения нагрузки между несколькими графическими процессорами. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки навыков MLLM в научной визуализации Исследователи представили специализированный бенчмарк для оценки способности мультимодальных больших языковых моделей (MLLM) интерпретировать научную визуализацию. В отличие от существующих тестов, сфокусированных на простых графиках, этот набор данных проверяет понимание сложных научных визуальных представлений. Тестирование шести актуальных моделей показало их текущие ограничения в анализе специализированных данных, критически важных для научной работы. Hacker News · Оценка и бенчмарки Обновление CursorBench 3.1 для оценки ИИ-кодинга Команда Cursor представила обновленный бенчмарк CursorBench 3.1, предназначенный для оценки эффективности LLM в задачах написания и редактирования кода. Инструмент фокусируется на реальных сценариях разработки, измеряя способность моделей справляться с многофайловыми изменениями и сложными рефакторингами, что позволяет точнее прогнозировать качество работы ИИ-ассистентов в профессиональной среде программирования. Hacker News · Исследования и наука PCB-Bench: новый бенчмарк для оценки LLM в проектировании печатных плат Исследователи представили PCB-Bench — специализированный набор данных и методологию для оценки способностей больших языковых моделей в задачах автоматизированного проектирования электроники. Бенчмарк фокусируется на двух критических этапах создания печатных плат: размещении компонентов и трассировке соединений, предлагая стандартизированный подход для тестирования ИИ-агентов в инженерных дисциплинах, требующих высокой точности и соблюдения строгих геометрических ограничений. Hacker News · Оценка и бенчмарки Wolfram запустила проект по глубокому бенчмаркингу LLM Компания Wolfram Research представила проект для комплексной оценки возможностей больших языковых моделей. В отличие от стандартных тестов, методология фокусируется на проверке способности ИИ к вычислениям, логическим рассуждениям и работе с точными данными через интеграцию с вычислительным движком Wolfram|Alpha. Проект предоставляет прозрачные метрики для сравнения производительности ведущих моделей в решении задач, требующих высокой точности. Hacker News · Оценка и бенчмарки Новый бенчмарк Sol, Terra и Luna для оценки LLM в реальных задачах Исследователи представили набор бенчмарков Sol, Terra и Luna, предназначенный для оценки производительности больших языковых моделей в прикладных сценариях разработки. В отличие от академических тестов, эти метрики фокусируются на качестве генерации кода, отладке и архитектурном проектировании, предоставляя разработчикам инструмент для выбора наиболее эффективной модели под конкретные технические задачи и реальные рабочие процессы.

← Все материалы