Исследователи из MIT и других ведущих университетов представили новый фреймворк для аудита синтетических данных, генерируемых с помощью ИИ. В работе, опубликованной на arXiv, авторы предлагают каузальный подход к выявлению утечек конфиденциальной информации в синтетических наборах данных.

Синтетические данные всё чаще используются как альтернатива реальным данным, особенно в контексте защиты конфиденциальности. Однако генерация таких данных с помощью моделей типа LLMs может приводить к утечкам информации из обучающих наборов. Новый фреймворк позволяет выявлять и оценивать риски утечек, что критически важно для разработчиков ИИ-агентов, работающих с конфиденциальными данными.

Авторы предлагают каузальную модель, которая учитывает как явные, так и скрытые зависимости между исходными и синтетическими данными. Это позволяет не только выявлять утечки, но и оценивать их вероятность. Фреймворк можно адаптировать под различные сценарии использования, что делает его полезным инструментом для аудита данных в ИИ-агентах.

Для разработчиков ИИ-агентов, особенно тех, кто работает с конфиденциальной информацией, этот фреймворк может стать важным инструментом для обеспечения безопасности данных. Он позволяет не только выявлять утечки, но и оценивать их вероятность, что критически важно для защиты конфиденциальной информации.