Hacker News · 26.06.2026 ·Безопасность и алайнмент

Исследование: ИИ-агенты подвержены влиянию через «подталкивание»

Новое исследование, опубликованное в PNAS, демонстрирует, что современные ИИ-агенты крайне чувствительны к методам «подталкивания» (nudging), аналогичным тем, что используются в поведенческой экономике для людей. Даже незначительные изменения в формулировках промптов или контексте задачи могут существенно менять принимаемые агентами решения, что ставит под вопрос их предсказуемость и надежность в автономных бизнес-процессах.

Авторы работы проанализировали, как различные модели реагируют на манипулятивные подсказки при выполнении многошаговых задач. Выяснилось, что агенты склонны следовать заданным паттернам поведения, если в инструкции заложены определенные когнитивные искажения или эмоционально окрашенные маркеры. Это создает риски при использовании ИИ в критических системах, где требуется объективность и следование строгим алгоритмам без внешнего влияния.

Результаты подчеркивают необходимость разработки новых методов тестирования и алайнмента, которые учитывали бы не только точность ответов, но и устойчивость агентов к попыткам манипуляции их логикой. В условиях, когда ИИ всё чаще делегируют принятие решений в маркетинге, финансах и HR, подобные уязвимости могут привести к непредсказуемым результатам или систематическим ошибкам в стратегии.

Ключевые факты

Исследование опубликовано в научном журнале PNAS (Proceedings of the National Academy of Sciences).
Установлено, что агенты демонстрируют высокую чувствительность к «подталкиванию», что меняет их итоговые решения в 30–40% случаев в зависимости от типа задачи.
Эффект манипуляции сохраняется даже при использовании продвинутых LLM, что указывает на фундаментальные особенности архитектуры обучения моделей.
Авторы предлагают внедрить механизмы «защиты от подталкивания» (nudge-resistance) в процесс дообучения и системного промптинга агентов.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

← Все материалы