arXiv · 01.07.2026 ·Оценка и бенчмарки

Новый бенчмарк Adversarial Pragmatics для оценки безопасности LLM

Исследователи представили бенчмарк Adversarial Pragmatics, предназначенный для глубокого анализа безопасности языковых моделей. В отличие от традиционных тестов, которые сводят результаты к бинарным оценкам «прошел/не прошел», этот инструмент фокусируется на сложных лингвистических сценариях: конфликтах инструкций, скрытых командах и двусмысленности политик безопасности. Это позволяет точнее выявлять причины сбоев в поведении моделей при выполнении агентных задач.

Современные методы оценки часто игнорируют контекстуальные нюансы, из-за чего модели могут ошибочно интерпретировать сложные запросы или поддаваться на манипуляции. Новый подход классифицирует ошибки на основе прагматики языка, разделяя случаи прямого нарушения правил, неверного следования инструкциям и неспособности модели противостоять внедренным командам. Такой детальный анализ критически важен для разработки более устойчивых систем, способных корректно работать в условиях неопределенности.

Разработчики бенчмарка подчеркивают, что текущие стандарты безопасности часто маскируют фундаментальные проблемы в архитектуре моделей. Новый метод позволяет детально отследить, на каком этапе происходит сбой: при интерпретации намерения пользователя, при оценке соответствия задаче или при попытке обхода встроенных ограничений. Это дает разработчикам возможность точечно дообучать модели, повышая их надежность в реальных сценариях эксплуатации.

Ключевые факты

Бенчмарк Adversarial Pragmatics фокусируется на трех типах угроз: конфликтах инструкций, внедренных командах и двусмысленности политик.
Инструмент заменяет упрощенную систему «pass/fail» на детальную классификацию причин отказов и ошибок безопасности.
Исследование направлено на устранение пробелов в оценке агентных систем, где модель должна самостоятельно интерпретировать сложные и противоречивые задачи.
Методология позволяет выявлять случаи, когда модель ошибочно отчитывается о прогрессе в выполнении задачи, фактически нарушая заданные правила безопасности.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы