Исследователи представили DiagFlowBench — новый бенчмарк для оценки способности языковых моделей обрабатывать запросы, выходящие за рамки стандартных процедур в диагностических диалогах. Языковые модели всё чаще используются в системах поддержки технического обслуживания, где важно избежать генерации некорректной информации (hallucination). Для этого модели привязывают к официальной документации, чтобы они следовали только утверждённым шагам.
Однако на практике операторы часто задают вопросы, не связанные с текущей процедурой. В таких случаях модели должны уметь распознавать такие запросы и корректно на них реагировать. Существующие бенчмарки редко учитывают эту динамику, что ограничивает оценку реальной эффективности моделей в рабочих условиях.
DiagFlowBench направлен на заполнение этого пробела. Он включает сценарии, где операторы отклоняются от стандартных процедур, и оценивает, насколько хорошо модели справляются с такими ситуациями. Это поможет улучшить разработку систем поддержки, делая их более надёжными и адаптивными в реальных условиях эксплуатации.