arXiv · 02.07.2026 ·Оценка и бенчмарки

A2utoLPBench: автоматизированный бенчмарк для проверки ИИ-агентов в линейном программировании

Исследователи представили A2utoLPBench — динамический бенчмарк для оценки способностей ИИ-агентов решать задачи линейного программирования (LP), сформулированные на естественном языке. В отличие от статических наборов данных, которые подвержены утечкам в обучающие выборки моделей, этот инструмент использует метод обратной конструкции KKT для автоматической генерации уникальных задач, что обеспечивает объективность тестирования и масштабируемость сложности.

Традиционные бенчмарки для линейного программирования ограничены фиксированным объемом и ручной разметкой, что делает их уязвимыми для «заучивания» моделями. A2utoLPBench решает эту проблему, генерируя задачи «на лету». Система сначала определяет допустимую область решений, а затем формирует текстовое описание задачи, требующей от агента построения математической модели и её последующего решения с помощью специализированных инструментов или кода.

Этот подход позволяет непрерывно тестировать логические способности агентов в условиях, когда они не могут опираться на заранее известные ответы. Автоматизация процесса создания задач исключает человеческий фактор и позволяет гибко варьировать сложность, что критически важно для оценки производительности современных LLM в прикладных инженерных и оптимизационных сценариях.

Ключевые факты

A2utoLPBench использует метод обратной конструкции условий Каруша-Куна-Таккера (KKT) для создания корректных задач линейного программирования.
Бенчмарк устраняет проблему утечки данных (data leakage), так как задачи генерируются динамически и не являются статичными наборами.
Система ориентирована на тестирование агентных систем, способных переводить текстовые условия в формализованные математические модели.
Инструмент позволяет оценивать как точность формулировки задачи, так и корректность финального численного решения.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы