arXiv · 21.06.2026 ·Оценка и бенчмарки

Новый фреймворк PRIME для оценки поведения LLM при противоречивых инструкциях

Исследователи представили фреймворк PRIME (Prompt Resolution under Incompatible Meta-Instructions Evaluation), предназначенный для анализа того, как большие языковые модели справляются с конфликтующими командами. Существующие бенчмарки часто тестируют следование инструкциям в изолированных условиях, что не позволяет оценить поведение моделей в реальных сценариях, где пользовательские запросы могут содержать логические противоречия или взаимоисключающие требования.

PRIME позволяет систематически изучать стратегии разрешения конфликтов, которые выбирают модели при столкновении с несовместимыми мета-инструкциями. В рамках исследования авторы выявили закономерности в том, как LLM отдают приоритет одним указаниям над другими, и как эти механизмы влияют на итоговый результат генерации. Фреймворк помогает выявить скрытые предпочтения моделей и их устойчивость к манипуляциям через противоречивые промпты.

Полученные данные дают более глубокое понимание процессов принятия решений внутри нейросетей. Разработка позволяет разработчикам точнее настраивать модели для работы в сложных диалоговых системах, где точность следования инструкциям критически важна для минимизации ошибок и повышения предсказуемости ответов в условиях неопределенности.

Источник: arXiv

Похожие материалы

arXiv · Исследования и наука Метод разрешения конфликтов знаний в LLM при работе с внешними данными Исследователи представили новый подход к решению проблемы противоречий между внутренними параметрическими знаниями языковых моделей и информацией, поступающей из внешнего контекста. В современных системах, использующих RAG или длинные промпты, модель часто сталкивается с ситуацией, когда данные в запросе пользователя противоречат тому, что было «выучено» моделью в процессе обучения. Это приводит к галлюцинациям или снижению точности ответов, так как модель не может эффективно приоритизировать источники данных. arXiv · Модели и релизы Новый метод обнаружения ошибок в цепочках рассуждений LLM Исследователи из MIT и Университета Карнеги-Меллона предложили новый подход к выявлению ошибок в цепочках рассуждений языковых моделей (LLM) без использования меток. Их метод, основанный на операдной теории, позволяет обнаруживать несоответствия в логических цепочках, которые модели строят при решении сложных задач. arXiv · Оценка и бенчмарки Новый подход к оценке логического мышления LLM через исчисление предикатов Исследователи представили QMFOL — новый фреймворк для оценки дедуктивных способностей больших языковых моделей. В отличие от существующих тестов, которые часто полагаются на статические наборы данных, QMFOL использует генерацию тестовых случаев на основе квантифицируемой монадической логики первого порядка. Это позволяет исследователям точно контролировать уровень логической сложности задач и обеспечивать баланс между семантическим разнообразием и строгостью логических выводов. Hacker News · Оркестрация агентов Новый фреймворк для консультации агентов с другими моделями Разработчики из Rainе представили фреймворк Consult-LLM, который позволяет ИИ-агентам консультироваться с другими языковыми моделями. Это решение может значительно расширить возможности агентов, предоставляя им доступ к знаниям и экспертизе различных моделей. arXiv · Исследования и наука Исследование методов отслеживания влияния обучающих данных на ответы LLM Исследователи проанализировали два ключевых подхода к интерпретации поведения больших языковых моделей: оценку сходства данных (data-similarity) и оценку влияния данных (data-influence). Первый метод основан на поиске семантической близости между запросом и обучающей выборкой, что требует значительно меньше вычислительных ресурсов. Второй метод направлен на определение того, как конкретные примеры из обучающего набора напрямую меняют веса модели и влияют на итоговый результат, что считается более точным, но трудоемким процессом. Hacker News · ИИ в бизнесе Эффективность LLM при аудите безопасности кода на Rust Исследование применения больших языковых моделей для поиска уязвимостей в языке программирования Rust показало неожиданно высокие результаты. Несмотря на встроенные механизмы безопасности Rust, такие как проверка владения памятью, критические ошибки все еще могут возникать в блоках unsafe или при использовании небезопасных API. Использование специализированных промптов и итеративного анализа позволяет нейросетям находить сложные логические дефекты, которые часто пропускают традиционные статические анализаторы. Hacker News · Инфраструктура для агентов Pragmatiq: open-source фреймворк для внедрения LLM в банковские системы Представлен Pragmatiq — специализированный фреймворк с открытым исходным кодом, предназначенный для интеграции фундаментальных моделей в банковскую инфраструктуру. Инструмент ориентирован на создание надежных агентных систем, способных работать с финансовыми данными в условиях строгих требований к безопасности и комплаенсу. Hacker News · Оценка и бенчмарки Сравнение производительности LLM в динамических агентных сценариях Платформа OpenRouter представила результаты тестирования различных языковых моделей в условиях симуляции, где агенты должны принимать решения в режиме реального времени. В рамках эксперимента модели помещались в динамическую среду, требующую быстрой реакции на меняющиеся обстоятельства. Цель исследования заключалась в оценке того, как архитектурные различия и методы обучения влияют на способность моделей эффективно управлять автономными объектами в условиях ограниченного времени. Hacker News · Оркестрация агентов Универсальный фреймворк для разрешения противоречий в ИИ-агентах Исследователи представили новый фреймворк для разрешения противоречий в различных доменах, что может стать важным инструментом для разработки ИИ-агентов. Фреймворк позволяет анализировать и устранять противоречия в данных, что особенно актуально для агентов, работающих с разнородными источниками информации. arXiv · Оценка и бенчмарки Новый бенчмарк CWE-Trace для проверки навыков LLM в поиске уязвимостей Исследователи представили фреймворк CWE-Trace, предназначенный для оценки способности больших языковых моделей обнаруживать уязвимости в системном программном обеспечении. Основная проблема существующих решений заключается в том, что модели часто показывают высокие результаты на тестах лишь благодаря заучиванию данных, а не реальному пониманию принципов безопасности. Новый набор данных включает 834 тщательно отобранных примера из ядра Linux, охватывающих 74 типа типичных ошибок программирования (CWE).

← Все материалы