Администрация США ведет переговоры с разработчиками ИИ-моделей, включая компанию Anthropic, с целью внедрения строгих механизмов защиты, исключающих возможность обхода ограничений безопасности (джейлбрейка). Белый дом настаивает на создании систем, которые гарантированно предотвращают генерацию вредоносного контента, независимо от формулировок запросов пользователя. Это требование является частью усилий по обеспечению безопасности при развертывании мощных языковых моделей в критически важных секторах.
Эксперты и представители индустрии указывают на техническую сложность реализации такой задачи. Современные архитектуры нейросетей основаны на вероятностных методах обработки данных, что делает невозможным создание стопроцентной гарантии защиты от манипуляций. Любая попытка жесткого ограничения функциональности через фильтры может привести к снижению полезности моделей или появлению новых уязвимостей, которые исследователи называют «состязательными атаками».
На текущий момент разработчики используют многоуровневые системы безопасности, включающие обучение с подкреплением на основе отзывов людей (RLHF) и дополнительные слои классификации запросов. Однако создание системы, полностью исключающей риск обхода правил, остается нерешенной инженерной проблемой. Дискуссия между государственными органами и технологическими компаниями подчеркивает разрыв между регуляторными ожиданиями и текущими возможностями машинного обучения.