Исследователи представили A2utoLPBench — динамический бенчмарк для оценки способностей ИИ-агентов решать задачи линейного программирования (LP), сформулированные на естественном языке. В отличие от статических наборов данных, которые подвержены утечкам в обучающие выборки моделей, этот инструмент использует метод обратной конструкции KKT для автоматической генерации уникальных задач, что обеспечивает объективность тестирования и масштабируемость сложности.
Традиционные бенчмарки для линейного программирования ограничены фиксированным объемом и ручной разметкой, что делает их уязвимыми для «заучивания» моделями. A2utoLPBench решает эту проблему, генерируя задачи «на лету». Система сначала определяет допустимую область решений, а затем формирует текстовое описание задачи, требующей от агента построения математической модели и её последующего решения с помощью специализированных инструментов или кода.
Этот подход позволяет непрерывно тестировать логические способности агентов в условиях, когда они не могут опираться на заранее известные ответы. Автоматизация процесса создания задач исключает человеческий фактор и позволяет гибко варьировать сложность, что критически важно для оценки производительности современных LLM в прикладных инженерных и оптимизационных сценариях.
Ключевые факты
- A2utoLPBench использует метод обратной конструкции условий Каруша-Куна-Таккера (KKT) для создания корректных задач линейного программирования.
- Бенчмарк устраняет проблему утечки данных (data leakage), так как задачи генерируются динамически и не являются статичными наборами.
- Система ориентирована на тестирование агентных систем, способных переводить текстовые условия в формализованные математические модели.
- Инструмент позволяет оценивать как точность формулировки задачи, так и корректность финального численного решения.