arXiv · 24.06.2026 ·Оценка и бенчмарки

Исследование устойчивости VLM к визуальным искажениям при распознавании текста

Исследователи проанализировали устойчивость мультимодальных моделей (VLM) к деградации изображений при выполнении задач OCR-рассуждений. Работа выявила, что даже незначительные визуальные помехи существенно снижают точность распознавания и логических выводов моделей. Авторы представили методологию оценки, позволяющую измерить влияние структурных искажений и шума на способность нейросетей интерпретировать текст на сложных визуальных данных.

В ходе эксперимента тестировались современные архитектуры на задачах, требующих не только чтения текста, но и понимания контекста документа. Выяснилось, что модели часто демонстрируют высокую чувствительность к качеству входного изображения, что приводит к накоплению ошибок на этапе извлечения данных. Это создает критическую неопределенность в цепочке рассуждений, особенно в сценариях с низким качеством сканов или фотографий.

Полученные результаты подчеркивают необходимость разработки более робастных методов обучения, способных сохранять точность при наличии визуальных артефактов. Исследование предлагает новые метрики для оценки надежности систем, работающих с документами, что важно для внедрения ИИ в корпоративные процессы обработки неструктурированной информации.

Ключевые факты

Исследование сфокусировано на оценке OCR-рассуждений в условиях контролируемой визуальной деградации.
Выявлена прямая зависимость между структурными искажениями изображения и падением логической точности моделей.
Предложен новый подход к тестированию VLM, позволяющий выявлять уязвимости в цепочках рассуждений при работе с «шумными» данными.
Работа подчеркивает критический разрыв между результатами на чистых бенчмарках и реальной производительностью в условиях помех.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука Исследование: ограничения механизма внимания в современных LLM Ученые проанализировали эффективность архитектуры трансформеров при выполнении задач, требующих длительной концентрации на контексте. В ходе экспериментов выяснилось, что даже самые продвинутые языковые модели демонстрируют снижение точности при обработке длинных последовательностей, если ключевая информация распределена неравномерно или скрыта в середине текста. Этот феномен, известный как «проблема потерянного в середине» (lost in the middle), ставит под вопрос надежность механизмов внимания при работе с большими объемами данных. Hacker News · Оценка и бенчмарки Метод Лос-Аламосской лаборатории для выявления галлюцинаций в мультимодальных моделях Исследователи из Лос-Аламосской национальной лаборатории представили новый подход к диагностике ошибок в работе мультимодальных моделей, объединяющих зрение и язык. Основная проблема таких систем заключается в склонности к «галлюцинациям» — генерации описаний объектов или событий, которых нет на исходном изображении. Разработанный метод позволяет более точно отслеживать соответствие между визуальными данными и текстовым выводом модели. arXiv · Оценка и бенчмарки Исследование чувствительности мультимодальных моделей к порядку данных Исследователи представили инструмент Facet-Probe для аудита мультимодальных LLM, выявляющий критическую проблему: модели часто меняют ответы при простом изменении порядка входных данных. Стандартные бенчмарки игнорируют этот фактор, что ставит под сомнение надежность систем в реальных сценариях, где порядок предоставления информации не должен влиять на итоговый результат или логические выводы нейросети. arXiv · Модели и релизы Почему самоулучшающиеся модели могут деградировать на новых задачах Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных. arXiv · Исследования и наука Метод SIFT повышает точность фактчекинга в LLM через проверку обоснованности доказательств Исследователи представили метод SIFT (Claim-Conditioned Re-scoring), решающий проблему «разрыва обоснований» (Warrant Gap) в ИИ-системах проверки фактов. Хотя современные LLM показывают высокую точность на бенчмарках, они часто подтверждают утверждения, используя нерелевантные доказательства. Новый подход переоценивает извлеченные данные с учетом контекста исходного утверждения, что позволяет выявлять логические несоответствия между фактом и цитируемым источником. Hacker News · Оценка и бенчмарки LLM достигли предела в интерпретации контринтуитивных графиков Исследователи проанализировали способности современных языковых моделей в интерпретации визуальных данных с помощью бенчмарка Bluffbench. Тестирование показало, что топовые модели достигли уровня насыщения: они успешно распознают закономерности даже на контринтуитивных графиках, где визуальное представление данных противоречит логическим выводам. Это означает, что текущие архитектуры практически полностью освоили базовые навыки визуальной аналитики, заложенные в этот набор тестов. arXiv · Исследования и наука Исследование взаимодействия речи и текста в латентном пространстве моделей Исследователи проанализировали работу моделей, обучаемых на чередующихся последовательностях речевых и текстовых токенов. Основная цель работы заключалась в том, чтобы понять, как именно различные модальности взаимодействуют внутри латентного пространства нейросети и как текстовые данные влияют на развитие навыков обработки аудио. arXiv · Исследования и наука Метод разрешения конфликтов знаний в LLM при работе с внешними данными Исследователи представили новый подход к решению проблемы противоречий между внутренними параметрическими знаниями языковых моделей и информацией, поступающей из внешнего контекста. В современных системах, использующих RAG или длинные промпты, модель часто сталкивается с ситуацией, когда данные в запросе пользователя противоречат тому, что было «выучено» моделью в процессе обучения. Это приводит к галлюцинациям или снижению точности ответов, так как модель не может эффективно приоритизировать источники данных. arXiv · Машинное обучение Геометрия собственных чисел в анализе семантических атак на ИИ Исследователи представили новый теоретический подход к изучению уязвимостей моделей классификации, основанный на анализе геометрии собственных чисел. Работа фокусируется на проблеме семантических состязательных атак, при которых незначительные перефразирования текста приводят к изменению предсказаний модели, несмотря на сохранение исходного смысла и близость векторных представлений. arXiv · Модели и релизы Новый метод обнаружения ошибок в цепочках рассуждений LLM Исследователи из MIT и Университета Карнеги-Меллона предложили новый подход к выявлению ошибок в цепочках рассуждений языковых моделей (LLM) без использования меток. Их метод, основанный на операдной теории, позволяет обнаруживать несоответствия в логических цепочках, которые модели строят при решении сложных задач.

← Все материалы