arXiv · 16.06.2026 ·Оценка и бенчмарки

Новый бенчмарк для оценки работы языковых моделей в диагностических диалогах

Исследователи представили DiagFlowBench — новый бенчмарк для оценки способности языковых моделей обрабатывать запросы, выходящие за рамки стандартных процедур в диагностических диалогах. Языковые модели всё чаще используются в системах поддержки технического обслуживания, где важно избежать генерации некорректной информации (hallucination). Для этого модели привязывают к официальной документации, чтобы они следовали только утверждённым шагам.

Однако на практике операторы часто задают вопросы, не связанные с текущей процедурой. В таких случаях модели должны уметь распознавать такие запросы и корректно на них реагировать. Существующие бенчмарки редко учитывают эту динамику, что ограничивает оценку реальной эффективности моделей в рабочих условиях.

DiagFlowBench направлен на заполнение этого пробела. Он включает сценарии, где операторы отклоняются от стандартных процедур, и оценивает, насколько хорошо модели справляются с такими ситуациями. Это поможет улучшить разработку систем поддержки, делая их более надёжными и адаптивными в реальных условиях эксплуатации.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Оценка и бенчмарки Новый бенчмарк для оценки ИИ в повседневной медицинской помощи Исследователи из Mass General Brigham представили специализированный бенчмарк для оценки эффективности больших языковых моделей в клинической практике. Инструмент предназначен для проверки того, насколько корректно ИИ справляется с типичными задачами врача: постановкой предварительных диагнозов, интерпретацией симптомов и формированием планов лечения на основе данных пациентов. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки клинического мышления LLM Исследователи представили специализированный набор данных для тестирования навыков клинического мышления у передовых языковых моделей. В отличие от стандартных тестов с выбором ответа, новый бенчмарк фокусируется на открытых сценариях, составленных практикующими врачами. Результаты показывают, что даже топовые модели демонстрируют низкую эффективность в сложных медицинских задачах, где точность ответов в «сложном» сегменте не превышает 32%. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки клинического мышления мультимодальных моделей Исследователи представили новый подход к оценке мультимодальных языковых моделей (MLLM) в медицине, имитирующий реальный процесс диагностики. В отличие от статических тестов, новая методика фокусируется на многоходовом взаимодействии, где информация о пациенте раскрывается постепенно, требуя от ИИ динамического обновления гипотез и непрерывного уточнения клинических выводов на основе визуальных и текстовых данных. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки коррекции заблуждений в медицинских диалогах с LLM Исследователи представили новый метод оценки способности больших языковых моделей распознавать и исправлять ложные медицинские убеждения пациентов в ходе многоходовых диалогов. Текущие системы часто игнорируют ошибочные предпосылки в запросах, что создает риски при использовании ИИ в здравоохранении. Новый подход фокусируется на безопасности коммуникации и точности корректирующей обратной связи в сложных клинических сценариях. Hacker News · Оценка и бенчмарки Artificial Analysis представила методику оценки ИИ в интеллектуальной работе Аналитическая платформа Artificial Analysis выпустила инструмент Briefcase, предназначенный для оценки эффективности языковых моделей в решении сложных задач интеллектуального труда. В отличие от стандартных тестов, ориентированных на проверку академических знаний или написание кода, новая методика фокусируется на многоэтапных процессах, требующих анализа документов, синтеза информации и принятия решений в условиях неопределенности. Hacker News · Оценка и бенчмарки Почему современные бенчмарки LLM теряют актуальность Существующие методы оценки больших языковых моделей все чаще подвергаются критике из-за несоответствия реальным задачам пользователей. Традиционные бенчмарки, основанные на статических наборах вопросов и ответов, перестали быть надежным индикатором качества работы ИИ. Проблема заключается в том, что модели обучаются на огромных массивах данных, которые часто включают в себя сами тестовые задания. Это приводит к «зазубриванию» ответов и завышению показателей, которые не отражают реальную способность системы к рассуждению или решению нестандартных проблем. Hugging Face - Blog · Оценка и бенчмарки Новый подход к оценке агентных способностей открытых моделей Hugging Face представила методологию для оценки того, насколько эффективно языковые модели справляются с использованием внешних инструментов. В отличие от стандартных тестов на логику или знание фактов, новый подход фокусируется на способности модели вызывать функции, интерпретировать ответы API и корректировать свои действия в рамках многошаговых задач. Это позволяет разработчикам точнее определять, какая модель лучше подходит для создания автономных агентов. Hacker News · Оценка и бенчмарки LifeSciBench: новый стандарт оценки LLM в области наук о жизни Исследователи представили LifeSciBench — специализированный бенчмарк для оценки возможностей больших языковых моделей в решении задач экспертного уровня в биологии, химии и медицине. В отличие от общих тестов, этот набор данных сфокусирован на проверке способности моделей работать с узкоспециализированной научной терминологией, анализировать молекулярные структуры и интерпретировать сложные экспериментальные данные. arXiv · Оценка и бенчмарки DataGovBench: новый бенчмарк для оценки LLM в анализе реальных данных Исследователи представили DataGovBench — новый бенчмарк для оценки способностей больших языковых моделей к анализу данных. В отличие от существующих тестов, сфокусированных на простых таблицах, этот инструмент использует сложные государственные открытые данные. Он проверяет навыки работы с многотабличными структурами, интеграцию внешних знаний и способность моделей к самостоятельному поиску инсайтов в условиях реальной аналитической среды. Hacker News · Оценка и бенчмарки AdvertBench: новый бенчмарк для оценки рекламного креатива LLM Исследователи представили AdvertBench — специализированный набор тестов для оценки способности больших языковых моделей генерировать визуальную рекламу. Инструмент фокусируется на ключевых аспектах маркетингового контента: соответствии заданным визуальным стилям, точности передачи рекламного посыла и способности моделей следовать сложным инструкциям при создании изображений.

← Все материалы