Microsoft выпустила инструмент BenchPress, позволяющий предсказывать производительность больших языковых моделей на различных бенчмарках без необходимости их полного тестирования. Система использует мета-обучение для оценки способностей модели на основе ограниченного набора данных, что значительно сокращает вычислительные затраты и время, требуемое для оценки новых архитектур и версий моделей в процессе их разработки.

Традиционные методы оценки требуют прогона модели через тысячи задач, что становится крайне дорогим и долгим процессом при масштабировании параметров. BenchPress предлагает подход, при котором модель оценивается на небольшом подмножестве вопросов, а итоговый результат экстраполируется с высокой точностью. Это позволяет разработчикам быстрее проводить итерации и отсеивать неэффективные конфигурации на ранних этапах обучения.

Инструмент ориентирован на автоматизацию процесса валидации и стандартизацию подходов к сравнению моделей. Использование BenchPress помогает командам экономить ресурсы облачных вычислений, фокусируясь на наиболее перспективных архитектурах. Система поддерживает интеграцию с популярными наборами тестов, обеспечивая предсказательную аналитику для широкого спектра задач обработки естественного языка.

Ключевые факты

  • BenchPress разработан исследовательской группой Microsoft для ускорения оценки LLM.
  • Система использует методы мета-обучения для экстраполяции результатов на основе малых выборок.
  • Инструмент позволяет сократить количество необходимых запросов к модели при тестировании на 70–90%.
  • Решение доступно в виде open-source проекта на GitHub для интеграции в пайплайны разработки моделей.