Исследователи представили Multi-LCB — расширенную версию бенчмарка LiveCodeBench, предназначенную для комплексной оценки навыков генерации кода у больших языковых моделей. Оригинальный проект LiveCodeBench стал стандартом в индустрии благодаря использованию актуальных задач с площадок для спортивного программирования и строгому контролю за утечкой данных, что позволяет объективно проверять способности моделей решать новые, ранее не встречавшиеся задачи.
Основное ограничение предыдущей версии заключалось в узкой специализации на языке Python. Multi-LCB снимает это ограничение, добавляя поддержку широкого спектра языков программирования. Такой подход позволяет более точно оценить кросс-языковую компетенцию моделей, выявляя различия в качестве генерации кода для разных синтаксисов и парадигм программирования.
Новый бенчмарк сохраняет методологию фильтрации задач по дате публикации, что критически важно для предотвращения «загрязнения» обучающих выборок моделей. Использование Multi-LCB дает разработчикам и исследователям возможность получать более репрезентативные данные о производительности LLM в реальных сценариях разработки, где часто требуется владение несколькими языками программирования одновременно.