Исследователи из Arxiv представили longitudinal study о скрытых ошибках в работе ИИ-агентов, которые работают как долгосрочные автономные системы. В исследовании анализируется система личного ассистента, работающая с марта 2026 года. Система включает в себя около 40 запланированных задач, 8 поставщиков LLM, инструментальный прокси и базу знаний.

Основное внимание уделено так называемым "тихим" ошибкам — ситуациям, когда система продолжает работать, но результаты становятся некорректными. Такие ошибки могут оставаться незамеченными долгое время, что делает их особенно опасными для долгосрочных агентов.

Авторы выделяют несколько типов ошибок, включая проблемы с планированием задач, взаимодействием с инструментами и управлением памятью. Например, ошибки в планировании могут привести к тому, что задачи выполняются не в том порядке или с задержками, что влияет на общую производительность системы.

Исследование подчеркивает важность мониторинга и диагностики в системах ИИ-агентов. Авторы предлагают несколько рекомендаций по улучшению надежности таких систем, включая более строгий контроль за выполнением задач и улучшенные механизмы обнаружения ошибок.

Для разработчиков ИИ-агентов, таких как Jarv, это исследование является важным источником информации о потенциальных проблемах и способах их предотвращения. Понимание типов ошибок и их последствий может помочь в создании более надежных и устойчивых систем.