Исследователи из MIT и других университетов изучили, как загрязнённый контент в интернете, включая фальшивые отзывы и промо-страницы, влияет на рекомендации, генерируемые поисковыми моделями с дополнением контента из веба. Они обнаружили, что даже одна страница с поддельной информацией может существенно исказить результаты, которые получают пользователи. Это особенно актуально для сервисов, которые полагаются на живые данные из интернета для формирования рекомендаций.

Учёные провели эксперименты с различными поисковыми моделями, включая те, которые используют LLM (Large Language Models) для генерации рекомендаций. Они обнаружили, что даже небольшое количество загрязнённого контента может привести к значительным искажениям в рекомендациях. Например, фальшивые отзывы могут заставить модель рекомендовать некачественные или даже опасные продукты.

Это исследование подчёркивает важность проверки и фильтрации контента, который используют поисковые модели. Для разработчиков ИИ-агентов это означает необходимость внедрения механизмов для обнаружения и нейтрализации загрязнённого контента. В противном случае пользователи могут получать неточные или даже вредные рекомендации, что может подорвать доверие к таким системам.

Для Jarv это важно, так как любой агент, который использует веб-контент для формирования рекомендаций, должен учитывать риски, связанные с загрязнённым контентом. Это может включать разработку алгоритмов для обнаружения поддельных отзывов и промо-страниц, а также внедрение механизмов для проверки и фильтрации контента перед его использованием.