Исследователи представили новый подход к автоматическому поиску алгоритмов для удаления нежелательных концепций из весов нейронных сетей. Используя агентную систему, авторы смогли обнаружить эффективные методы «стирания» знаний, которые превосходят существующие ручные подходы. Это позволяет точечно корректировать поведение моделей, минимизируя побочные эффекты для общей производительности и сохраняя функциональность системы после удаления конкретных данных или концепций.

Традиционные методы удаления концепций (concept erasure) часто требуют значительных усилий по подбору гиперпараметров и архитектурных ограничений. Новый подход переносит эту задачу на плечи ИИ-агентов, которые итеративно тестируют различные стратегии модификации весов. Агенты анализируют влияние изменений на способность модели отвечать на запросы, связанные с целевой концепцией, и одновременно контролируют сохранение общей точности ответов на контрольных бенчмарках.

Данная методология открывает путь к более масштабируемому управлению поведением больших языковых моделей. Вместо того чтобы полагаться на трудоемкое дообучение или фильтрацию на уровне промптов, разработчики получают инструмент для структурной очистки моделей от специфических знаний, предвзятостей или конфиденциальной информации, заложенной в процессе обучения.

Ключевые факты

  • Метод использует агентную архитектуру для автоматического поиска и оптимизации алгоритмов редактирования весов.
  • Система позволяет удалять конкретные концепции из LLM, сохраняя при этом общую производительность модели на высоком уровне.
  • Подход значительно снижает потребность в ручном проектировании методов очистки данных и подборе параметров для каждой отдельной модели.
  • Исследование сфокусировано на решении проблемы «забывания» (catastrophic forgetting) при попытке точечно изменить знания нейросети.