Исследователи представили IatroBench — новый бенчмарк для оценки «ятрогенного вреда», возникающего в результате внедрения защитных механизмов в LLM. Анализ показал, что чрезмерные ограничения безопасности часто снижают полезность моделей, провоцируют отказ от выполнения корректных запросов и ухудшают качество ответов в критически важных областях, создавая новые риски вместо их устранения.
Авторы работы вводят понятие «ятрогенного вреда» по аналогии с медициной, где терапия может приводить к нежелательным осложнениям. В ходе тестирования различных моделей выяснилось, что жесткие фильтры безопасности часто срабатывают ложноположительно, блокируя легитимные научные, медицинские или технические задачи. Это вынуждает пользователей искать обходные пути, что в конечном итоге делает взаимодействие с ИИ менее предсказуемым и безопасным.
Исследование подчеркивает проблему баланса между безопасностью и функциональностью. Текущие методы алайнмента, направленные на минимизацию токсичности, часто приводят к деградации логических способностей моделей. IatroBench позволяет количественно измерить этот разрыв, предоставляя разработчикам инструмент для калибровки защитных систем без ущерба для производительности и точности ответов.
Ключевые факты
- IatroBench оценивает влияние защитных мер на полезность моделей в специализированных доменах.
- Выявлена прямая корреляция между агрессивностью фильтров безопасности и частотой ложных отказов в обслуживании.
- Исследование демонстрирует, что чрезмерная цензура снижает способность моделей к выполнению сложных многошаговых инструкций.
- Методология бенчмарка основана на принципе пре-регистрации гипотез для обеспечения объективности результатов.
- Работа указывает на необходимость перехода от жестких запретов к контекстно-зависимым методам обеспечения безопасности.