Исследователи представили RedlineBench — специализированный бенчмарк для оценки способности больших языковых моделей вести многоходовые переговоры по юридическим контрактам. В отличие от стандартных тестов на знание права, этот инструмент фокусируется на практическом применении навыков: умении аргументированно вносить правки, учитывать интересы сторон и достигать компромисса в условиях меняющихся требований.

Методология теста имитирует реальные бизнес-процессы, где модель выступает в роли одной из сторон сделки. Система оценивает не только точность формулировок, но и стратегическую последовательность действий ИИ на протяжении всей дискуссии. Такой подход позволяет выявить, насколько эффективно модели справляются с удержанием контекста и соблюдением заданных ограничений в сложных сценариях, требующих глубокого понимания договорной логики.

Результаты тестирования показывают значительные различия в производительности между ведущими архитектурами при работе с длинными цепочками диалогов. Бенчмарк подчеркивает критические точки отказа моделей, такие как потеря фокуса на ключевых условиях контракта или склонность к избыточным уступкам. Инструмент доступен для анализа способности ИИ-агентов автоматизировать рутинные юридические задачи в корпоративной среде.