arXiv · 15.06.2026 ·Другое

Как идентифицировать поведение ИИ-агентов через их «отпечатки»

Исследователи из Arxiv представили новый подход к анализу поведения ИИ-агентов, который позволяет выявлять их уникальные «отпечатки» — паттерны, по которым можно идентифицировать, как агент решает задачи. В отличие от традиционных бенчмарков, которые показывают только конечный результат, этот метод фокусируется на процессе принятия решений.

Авторы сравнили десять агентов, используя различные модели, задачи и подходы. Они обнаружили, что каждый агент демонстрирует уникальные поведенческие привычки, которые можно рассматривать как его «отпечаток». Эти отпечатки позволяют не только идентифицировать агентов, но и предсказывать их поведение в новых контекстах.

Для разработчиков ИИ-агентов, таких как Jarv, этот подход может быть полезен для отладки и улучшения поведения агентов. Понимание того, как агент принимает решения, позволяет оптимизировать его работу и избежать ошибок, которые могут возникнуть из-за некорректных паттернов поведения.

Исследование также открывает новые возможности для сравнения и оценки агентов. В будущем этот метод может быть использован для создания более надежных и предсказуемых ИИ-агентов, что особенно важно для приложений, где точность и надежность критически важны.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Оценка и бенчмарки AgentBeats: новый подход к оценке ИИ-агентов Исследователи из Arxiv предложили новый подход к оценке ИИ-агентов, который решает проблему фрагментированности тестирования. В статье "AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility" авторы отмечают, что существующие бенчмарки часто зависят от фиксированных, ориентированных на LLM, тестовых фреймворков. Это создает несоответствие между тестовыми и производственными условиями, а также ограничивает справедливое сравнение различных архитектур агентов. Hacker News · Память и RAG Исследование: случайный прорыв в памяти ИИ-агентов Исследователи из Coder Company случайно достигли нового уровня в области памяти ИИ-агентов, используя подход, основанный на AI-компаньонах. В ходе эксперимента они обнаружили, что агенты, взаимодействующие друг с другом, способны сохранять и использовать информацию более эффективно, чем традиционные методы. arXiv · Память и RAG Метод накопления преимуществ для самообучения ИИ-агентов Исследователи представили новый подход к обучению ИИ-агентов, основанный на механизме накопления маржинальных преимуществ (Marginal Advantage Accumulation). Метод решает проблему противоречивой обратной связи, возникающей при пакетной дистилляции траекторий, когда одни и те же операции с памятью получают разные оценки эффективности в разных итерациях обучения. arXiv · Исследования и наука Новый подход к оценке интеллекта ИИ-агентов через теорию сжатия данных Исследователи представили аналитическую модель оценки интеллекта агентных систем, основанную на принципе «интеллект как сжатие». Авторы предлагают измерять эффективность агентов через объем информации, необходимый для выполнения конкретных задач в заданных условиях. Этот подход позволяет количественно сравнивать способности моделей к использованию инструментов, поиску данных и многошаговому взаимодействию с внешней средой, переводя качественные характеристики агентов в измеримые биты. Hacker News · Оценка и бенчмарки Исследование влияния системных инструкций на поведение ИИ-агентов Исследователи проанализировали, как добавление специфических инструкций в системный промпт (Claude.md) меняет логику принятия решений ИИ-агентами. Используя метод «деревьев триггеров», авторы оценили, насколько агент отклоняется от базового поведения при изменении контекста. Результаты показывают, что даже незначительные правки в системных указаниях могут существенно влиять на цепочку рассуждений и итоговый выбор модели в сложных задачах. arXiv · Оркестрация агентов Новый подход к маршрутизации множества ИИ-агентов Исследователи из Университета Карнеги-Меллон представили новую работу, посвящённую компиляционным методам в задачах маршрутизации множества агентов (MAPF). В отличие от классических подходов, где все агенты должны достичь заданных целей без столкновений, авторы рассматривают варианты с разными требованиями к агентам. Lobsters · Исследования и наука ИИ-модели передают поведенческие черты через скрытые сигналы в данных Недавнее исследование, опубликованное в журнале Nature, показало, что языковые модели могут передавать поведенческие черты через скрытые сигналы в данных. Ученые обнаружили, что модели, обученные на данных, содержащих определенные поведенческие паттерны, могут воспроизводить эти паттерны даже в новых, ранее не встречавшихся контекстах. Microsoft Research · Память и RAG SocialReasoning-Bench: как ИИ-агенты действуют в интересах пользователей Исследователи из Microsoft представили SocialReasoning-Bench — новый бенчмарк, который оценивает способность ИИ-агентов действовать в интересах пользователей. В ходе тестирования различных моделей выяснилось, что хотя агенты демонстрируют компетентность в выполнении задач, они не всегда способны улучшать положение пользователя, даже при явных инструкциях оптимизировать свои действия. Hacker News · Безопасность и алайнмент Исследование: ИИ-агенты подвержены влиянию через «подталкивание» Новое исследование, опубликованное в PNAS, демонстрирует, что современные ИИ-агенты крайне чувствительны к методам «подталкивания» (nudging), аналогичным тем, что используются в поведенческой экономике для людей. Даже незначительные изменения в формулировках промптов или контексте задачи могут существенно менять принимаемые агентами решения, что ставит под вопрос их предсказуемость и надежность в автономных бизнес-процессах. arXiv · Исследования и наука Исследование скрытых ошибок в работе ИИ-агентов Исследователи из Arxiv представили longitudinal study о скрытых ошибках в работе ИИ-агентов, которые работают как долгосрочные автономные системы. В исследовании анализируется система личного ассистента, работающая с марта 2026 года. Система включает в себя около 40 запланированных задач, 8 поставщиков LLM, инструментальный прокси и базу знаний.

← Все материалы