Исследователи представили специализированный набор данных для оценки способности систем обнаруживать изображения, созданные нейросетями и содержащие значительные объемы текста. Современные мультимодальные модели научились генерировать реалистичные документы, графики и интерфейсы, что создает риски подделки конфиденциальной, финансовой или юридически значимой информации. Существующие инструменты детекции часто не справляются с анализом сложных визуальных структур, где текст является ключевым элементом.
Бенчмарк сфокусирован на модели GPT-Image-2 и охватывает широкий спектр доменов, включая транзакционные документы и пользовательские интерфейсы. Авторы работы подчеркивают, что точность распознавания таких изображений критически важна для поддержания цифрового доверия и проверки подлинности контента в условиях, когда визуальные данные становятся основным источником принятия решений.
Разработка направлена на преодоление ограничений текущих методов верификации, которые зачастую ориентированы на поиск артефактов в фотореалистичных изображениях, но упускают из виду логические и структурные несоответствия в текстовых элементах. Внедрение подобных стандартов тестирования позволит создавать более надежные системы фильтрации контента, способные противодействовать распространению сгенерированных документов, имитирующих реальные деловые бумаги.