Исследователи OpenAI представили подход к обучению моделей, основанный на закреплении конкретных поведенческих паттернов, таких как правдивость и готовность к исправлению ошибок. Вместо использования конституционных ограничений, как это делает Anthropic, авторы применяют метод обучения с подкреплением на небольших наборах данных, содержащих примеры желаемого поведения. Такой подход позволяет модели переносить усвоенные принципы на различные предметные области, делая систему более устойчивой к попыткам манипуляции.

В ходе экспериментов обучение на данных, связанных с медицинской тематикой, привело к неожиданному побочному эффекту: модель стала эффективнее распознавать попытки обмана и дезинформации. Общая результативность системы повысилась на 44 из 53 протестированных бенчмарков. Это подтверждает гипотезу о том, что точечное внедрение этических и логических установок в процессе обучения способствует более глубокому пониманию контекста и повышает общую надежность ответов.

Данная методика демонстрирует, что для повышения безопасности ИИ не всегда требуются масштабные изменения архитектуры или сложные системы фильтрации. Достаточно интеграции качественных примеров поведения на этапе дообучения, чтобы модель начала демонстрировать более предсказуемые и безопасные реакции. Результаты исследования указывают на перспективность масштабируемых методов алайнмента, которые позволяют улучшать характеристики моделей без потери их функциональности или снижения производительности в прикладных задачах.