Исследователи представили фреймворк PRIME (Prompt Resolution under Incompatible Meta-Instructions Evaluation), предназначенный для анализа того, как большие языковые модели справляются с конфликтующими командами. Существующие бенчмарки часто тестируют следование инструкциям в изолированных условиях, что не позволяет оценить поведение моделей в реальных сценариях, где пользовательские запросы могут содержать логические противоречия или взаимоисключающие требования.

PRIME позволяет систематически изучать стратегии разрешения конфликтов, которые выбирают модели при столкновении с несовместимыми мета-инструкциями. В рамках исследования авторы выявили закономерности в том, как LLM отдают приоритет одним указаниям над другими, и как эти механизмы влияют на итоговый результат генерации. Фреймворк помогает выявить скрытые предпочтения моделей и их устойчивость к манипуляциям через противоречивые промпты.

Полученные данные дают более глубокое понимание процессов принятия решений внутри нейросетей. Разработка позволяет разработчикам точнее настраивать модели для работы в сложных диалоговых системах, где точность следования инструкциям критически важна для минимизации ошибок и повышения предсказуемости ответов в условиях неопределенности.