Исследователи представили MAS-PromptBench — специализированный бенчмарк для анализа эффективности системных промптов в мультиагентных архитектурах. В таких системах каждый агент выполняет узкоспециализированную роль, а качество итогового результата напрямую зависит от того, насколько точно заданы инструкции для координации и взаимодействия между участниками процесса.

Авторы работы проанализировали, как автоматическая оптимизация промптов влияет на производительность сложных цепочек обработки данных. Выяснилось, что стандартные методы настройки промптов, эффективные для одиночных моделей, не всегда масштабируются на мультиагентные системы. Ключевым фактором успеха становится баланс между детализацией инструкций для конкретного агента и общими правилами взаимодействия внутри всей системы.

Результаты исследования показывают, что чрезмерная оптимизация промптов отдельных агентов может привести к снижению общей связности системы, если она не учитывает контекст всей цепочки. Бенчмарк позволяет разработчикам тестировать различные стратегии промпт-инжиниринга, чтобы находить оптимальные конфигурации для сложных рабочих процессов, где требуется высокая точность и предсказуемость поведения ИИ-агентов.