Исследователи Giskard обнаружили, что режим структурированного вывода (JSON mode) в моделях OpenAI не гарантирует полной защиты от инъекций и выхода за рамки заданных схем. Несмотря на использование системных промптов, модели могут игнорировать ограничения, если пользователь подает специфические инструкции, что создает уязвимости для систем, полагающихся на предсказуемый формат данных от ИИ.
Проблема заключается в том, что механизмы принудительного вывода JSON не являются абсолютно изолированными от логики обработки естественного языка. При попытке «взломать» структуру через сложные запросы, модель может начать генерировать вредоносный код или данные, которые нарушают целостность парсинга на стороне приложения. Это ставит под угрозу безопасность пайплайнов, где выходные данные ИИ автоматически передаются в базы данных или исполняемые скрипты.
Для разработчиков это означает, что полагаться исключительно на встроенные инструменты OpenAI недостаточно. Необходимо внедрять дополнительные уровни валидации на стороне клиента, использовать строгие схемы JSON Schema и проводить регулярное тестирование на устойчивость к попыткам обхода ограничений, чтобы предотвратить выполнение нежелательных команд или искажение бизнес-логики.
Ключевые факты
- Исследование проведено компанией Giskard, специализирующейся на тестировании качества и безопасности ИИ-систем.
- Уязвимость позволяет пользователям обходить ограничения JSON-режима, заставляя модель выводить данные, не соответствующие заданной схеме.
- Основной риск связан с возможностью инъекций, которые могут привести к выполнению несанкционированных действий в downstream-системах.
- Рекомендуется использовать многоуровневую проверку данных и строгую типизацию на уровне кода, а не доверять только API-интерфейсу модели.