arXiv · 17.06.2026 ·Оценка и бенчмарки

Новый бенчмарк для выявления ИИ-сгенерированных изображений с текстом

Исследователи представили специализированный набор данных для оценки способности систем обнаруживать изображения, созданные нейросетями и содержащие значительные объемы текста. Современные мультимодальные модели научились генерировать реалистичные документы, графики и интерфейсы, что создает риски подделки конфиденциальной, финансовой или юридически значимой информации. Существующие инструменты детекции часто не справляются с анализом сложных визуальных структур, где текст является ключевым элементом.

Бенчмарк сфокусирован на модели GPT-Image-2 и охватывает широкий спектр доменов, включая транзакционные документы и пользовательские интерфейсы. Авторы работы подчеркивают, что точность распознавания таких изображений критически важна для поддержания цифрового доверия и проверки подлинности контента в условиях, когда визуальные данные становятся основным источником принятия решений.

Разработка направлена на преодоление ограничений текущих методов верификации, которые зачастую ориентированы на поиск артефактов в фотореалистичных изображениях, но упускают из виду логические и структурные несоответствия в текстовых элементах. Внедрение подобных стандартов тестирования позволит создавать более надежные системы фильтрации контента, способные противодействовать распространению сгенерированных документов, имитирующих реальные деловые бумаги.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Оценка и бенчмарки Исследование устойчивости VLM к визуальным искажениям при распознавании текста Исследователи проанализировали устойчивость мультимодальных моделей (VLM) к деградации изображений при выполнении задач OCR-рассуждений. Работа выявила, что даже незначительные визуальные помехи существенно снижают точность распознавания и логических выводов моделей. Авторы представили методологию оценки, позволяющую измерить влияние структурных искажений и шума на способность нейросетей интерпретировать текст на сложных визуальных данных. arXiv · Исследования и наука Новый метод локализации ИИ-сгенерированного текста в совместных документах Исследователи представили новый метод для точного определения фрагментов текста, созданных языковыми моделями в документах с совместным авторством человека и ИИ. В отличие от существующих решений, которые классифицируют весь документ целиком, предложенный подход позволяет локализовать конкретные токены, сгенерированные алгоритмами, что критически важно для проверки подлинности контента и обеспечения прозрачности в процессах совместной работы. arXiv · Машинное обучение Новый подход к анализу сложной иерархической структуры газетных полос Исследователи представили комплексный метод анализа газетных изображений, отличающихся высокой плотностью и сложной вложенной версткой. Решение объединяет модульный пайплайн на базе YOLO и LayoutReader для определения порядка чтения с подходом «сверху вниз», использующим специализированные визуально-языковые модели. Это позволяет эффективно извлекать данные из гетерогенных макетов, где традиционные алгоритмы распознавания часто допускают ошибки. arXiv · Память и RAG QIMG-7: новый бенчмарк для оценки надежности мультимодальных RAG-систем Исследователи представили QIMG-7 — специализированный бенчмарк для тестирования мультимодальных RAG-систем в условиях «загрязненных» данных. В отличие от стандартных тестов, использующих очищенные наборы, QIMG-7 проверяет устойчивость моделей к поисковой выдаче, содержащей искаженные метаданные, вредоносные визуальные патчи, семантические подмены и другие типы контента, которые могут скомпрометировать точность генерации ответов. The Decoder · Оценка и бенчмарки Новый бенчмарк показал низкую эффективность ИИ в реальных интеллектуальных задачах Исследователи представили новый бенчмарк, предназначенный для оценки способности нейросетей справляться с комплексной интеллектуальной работой. В отличие от стандартных тестов, проверяющих знание фактов или написание кода, этот инструмент имитирует реальные рабочие процессы, требующие многоэтапного планирования, анализа контекста и принятия решений. Результаты показали, что даже самые передовые языковые модели демонстрируют крайне низкие показатели в таких условиях. arXiv · Исследования и наука Новый метод атрибуции доказательств в визуальном понимании документов Исследователи представили метод атрибуции доказательств для моделей визуального понимания документов, который исключает необходимость использования координат или меток регионов. Вместо традиционного вывода ограничивающих рамок (bounding boxes), модель учится напрямую соотносить ответы с текстовыми и визуальными фрагментами документа, что значительно повышает точность интерпретации сложных данных и снижает вероятность ошибок при локализации информации. arXiv · Оценка и бенчмарки Новый бенчмарк для проверки активного зрения у мультимодальных моделей Исследователи представили новый бенчмарк для оценки способности мультимодальных моделей (MLLM) к «активному наблюдению». В отличие от стандартных тестов, анализирующих статические изображения, этот метод проверяет, как модели управляют вниманием и корректируют гипотезы в процессе обработки визуальной информации, имитируя человеческий подход к восприятию, основанный на непрерывном цикле обратной связи и перенаправлении взгляда. arXiv · Оценка и бенчмарки Представлен AnnoBench: новый стандарт для оценки ИИ в задачах визуальной аннотации Исследователи представили AnnoBench — специализированный бенчмарк для оценки способности ИИ-моделей генерировать аннотации к визуализациям данных. Инструмент решает проблему автоматизации сложных графических задач, требующих одновременного соблюдения визуальных, семантических и стилистических ограничений. Бенчмарк позволяет количественно измерить качество подписей, их читаемость и точность размещения, что критически важно для создания автоматизированных аналитических систем и инструментов визуализации данных. Hacker News · Оценка и бенчмарки PrivacyBench: открытый бенчмарк для оценки деидентификации текстовых данных Tonic AI представила PrivacyBench — комплексный набор данных и методологию для оценки качества деидентификации текста. Инструмент позволяет измерять эффективность удаления персональной информации (PII) из наборов данных, используемых для обучения моделей. Бенчмарк оценивает как полноту удаления чувствительных данных, так и сохранение полезности синтезированного текста для дальнейшего использования в задачах машинного обучения. Hacker News · Безопасность и алайнмент Новый метод защиты контента от парсинга ИИ через отравленные шрифты Разработчики представили инструмент Glaze-подобного типа, который защищает текстовый контент от несанкционированного обучения ИИ-моделей. Технология использует специально модифицированные шрифты, которые визуально остаются читаемыми для людей, но при попытке автоматизированного парсинга и распознавания текста (OCR) выдают искаженные данные, делая собранный датасет непригодным для качественного обучения нейросетей.

← Все материалы