Исследование подтверждает, что включение URL-адресов в промпты существенно влияет на ответы LLM, даже если модель не имеет прямого доступа к интернету. Модели склонны «галлюцинировать» или экстраполировать содержание по ссылкам, основываясь на своих обучающих данных. Это создает риски непредсказуемого поведения агентов при работе с внешними источниками информации в промптах.

Авторы эксперимента протестировали несколько популярных моделей, включая GPT-4 и Claude, добавляя в запросы ссылки на реальные и вымышленные ресурсы. Выяснилось, что наличие URL заставляет модель смещать фокус генерации в сторону предполагаемого контента сайта. Если домен известен модели, она начинает использовать ассоциативные связи, накопленные в процессе обучения, что может приводить к искажению фактов или навязыванию специфического контекста.

Для разработчиков агентных систем это означает необходимость жесткой фильтрации входных данных. Использование ссылок в промптах без предварительного извлечения и верификации контента через RAG-системы делает ответы менее надежными. Модель фактически использует URL как «подсказку» для поиска в своей внутренней памяти, что может быть как полезным инструментом для управления контекстом, так и источником нежелательных галлюцинаций.

Ключевые факты

  • Исследование показало, что LLM активно используют ассоциации с доменными именами для формирования ответа, даже при отсутствии доступа к сети.
  • Эффект «подсказки» проявляется сильнее, если URL ведет на широко известные ресурсы, данные о которых присутствовали в обучающей выборке модели.
  • Использование URL в промптах без RAG-интеграции приводит к неконтролируемому влиянию на точность и объективность генерации.
  • Эксперименты подтвердили, что модели могут «додумывать» содержание страницы, основываясь на структуре URL или репутации домена.