Microsoft опубликовал уточнения к своему исследованию «LLMs Corrupt Your Documents When You Delegate», которое вызвал широкий резонанс в сообществе разработчиков ИИ. В работе рассматриваются проблемы надёжности ИИ-систем при делегировании задач, особенно в долгосрочных сценариях. Исследователи подчеркнули, что их цель — не просто выявить проблемы, но и разработать методы оценки, которые помогут создать более устойчивые системы.

Ключевой вывод исследования заключается в том, что современные языковые модели могут вносить ошибки в документы при их обработке, особенно при длительных цепочках делегирования. Это особенно важно для разработчиков ИИ-агентов, так как такие ошибки могут накапливаться и приводить к значительным искажениям результатов. Исследование также подчеркивает необходимость более строгих методов оценки и тестирования для обеспечения надёжности ИИ-систем.

Microsoft отмечает, что их работа не претендует на окончательные выводы, но предлагает важные направления для дальнейших исследований. В частности, они предлагают использовать более сложные сценарии тестирования, которые имитируют реальные условия работы ИИ-агентов. Это включает в себя тестирование на длительных временных горизонтах и в условиях, когда ИИ должен взаимодействовать с множеством различных документов и данных.

Для разработчиков ИИ-агентов, таких как Jarv, это исследование подчеркивает важность внедрения механизмов контроля и проверки, которые могут предотвратить накопление ошибок. Это может включать в себя использование дополнительных моделей для проверки результатов, внедрение систем мониторинга и разработку более сложных алгоритмов оценки качества. В конечном итоге, это исследование является важным шагом на пути к созданию более надёжных и устойчивых ИИ-систем.