arXiv · 21.06.2026 ·Машинное обучение

Метод семантической коррекции для авторегрессионных визуальных моделей

Исследователи представили новый подход к повышению качества генерации изображений и видео в авторегрессионных визуальных моделях (AVM). Основная проблема таких систем заключается в многомасштабном подходе к синтезу: процесс разбивается на дискретные этапы с разной степенью детализации, из-за чего семантические ошибки, допущенные на ранних стадиях, накапливаются и приводят к искажениям в финальном результате.

Предложенный метод семантической коррекции работает без необходимости дополнительного обучения модели. Алгоритм анализирует процесс генерации на лету, выявляя несоответствия между уровнями детализации. Это позволяет корректировать структуру изображения в процессе построения последовательности, не прибегая к переобучению весов или сложным итеративным процедурам доводки.

Технология обеспечивает более высокую точность следования текстовому запросу и улучшает визуальную связность объектов. Метод демонстрирует эффективность в задачах, где критически важна семантическая точность, позволяя минимизировать артефакты, характерные для авторегрессионных подходов к генерации визуального контента.

Источник: arXiv

Похожие материалы

arXiv · Исследования и наука Метод семантического браузинга для управления разнообразием генерации изображений Исследователи представили новый подход к генерации изображений под названием «семантический браузинг» (Semantic Browsing). Современные диффузионные модели демонстрируют высокую точность следования текстовым запросам, однако часто страдают от низкой вариативности результатов. При попытке разнообразить генерацию существующие методы обычно вносят случайные изменения, которые не несут смысловой нагрузки и не позволяют пользователю осознанно управлять визуальными характеристиками объекта. arXiv · Машинное обучение ProductConsistency: новый метод сохранения идентичности объектов при редактировании изображений Исследователи представили метод ProductConsistency, направленный на решение проблемы потери деталей при редактировании изображений с помощью текстовых инструкций. Современные модели часто искажают ключевые характеристики товаров, такие как брендинг, специфические элементы дизайна и текстовые надписи, когда пользователь запрашивает изменение фона или окружения. Новый подход позволяет сохранять визуальную идентичность продукта, что критически важно для коммерческого использования ИИ в маркетинге и электронной коммерции. arXiv · Машинное обучение Автоматическая оптимизация 3D-генерации с помощью VLM-судьи Исследователи представили новый метод улучшения качества генерации 3D-объектов по одному изображению. В основе подхода лежит использование мультимодальной языковой модели (VLM) в качестве автоматического судьи, который оценивает и ранжирует качество создаваемых мешей. Традиционные метрики, такие как CLIP или упрощенные геометрические прокси, часто оказываются недостаточно точными для оценки сложных 3D-структур, поэтому новая система предлагает более надежный способ фильтрации результатов. arXiv · Исследования и наука DiT-Reward: использование генеративных моделей для оценки качества изображений Исследователи представили метод DiT-Reward, который позволяет использовать предобученные диффузионные трансформеры для оценки качества генерации изображений. Вместо создания отдельной системы для проверки результатов, авторы адаптировали архитектуру генеративной модели под задачу предсказания вознаграждения (reward modeling). Это позволяет системе точнее определять, насколько сгенерированное изображение соответствует заданному текстовому описанию. Hacker News · Оценка и бенчмарки Метод Лос-Аламосской лаборатории для выявления галлюцинаций в мультимодальных моделях Исследователи из Лос-Аламосской национальной лаборатории представили новый подход к диагностике ошибок в работе мультимодальных моделей, объединяющих зрение и язык. Основная проблема таких систем заключается в склонности к «галлюцинациям» — генерации описаний объектов или событий, которых нет на исходном изображении. Разработанный метод позволяет более точно отслеживать соответствие между визуальными данными и текстовым выводом модели. arXiv · Машинное обучение Оптимизация синтетических данных для обучения компьютерного зрения Исследователи представили метод SmartSDG, направленный на устранение разрыва между синтетическими данными и реальными условиями в задачах компьютерного зрения. Использование сгенерированных изображений позволяет обходить проблему ручной разметки, однако качество моделей часто страдает из-за различий в освещении и сложности фона. Новый подход систематизирует влияние физически корректного непрямого освещения на точность распознавания объектов. arXiv · Память и RAG Как RAG помогает бороться с галлюцинациями в мультимодальных моделях Исследователи из MIT и других ведущих университетов предложили новый подход к снижению визуальных галлюцинаций в мультимодальных языковых моделях (MLLMs). Эти системы, способные обрабатывать как текстовые, так и визуальные данные, часто демонстрируют уверенность в своих ответах, даже когда визуальные данные слабые или неоднозначные. Это приводит к так называемым "галлюцинациям" — выводам, не соответствующим реальности. arXiv · Модели и релизы Новый метод улучшения генерации изображений по тексту Исследователи предложили новый подход к дообучению моделей генерации изображений по тексту. В статье на arXiv представлен метод STAR (SpatioTemporal Adaptive Reward Allocation), который учитывает временную и пространственную структуру процесса генерации. arXiv · Модели и релизы Почему самоулучшающиеся модели могут деградировать на новых задачах Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных. arXiv · Модели и релизы Как улучшить точность небольших моделей кода без переобучения Исследователи из DeepSeek и других организаций представили новый подход к повышению точности небольших моделей кода без необходимости их переобучения. В работе рассматриваются так называемые «замороженные» модели кода (с параметрами ≤45 миллионов), которые не поддаются стандартным методам улучшения качества вывода.

← Все материалы