arXiv · 18.06.2026 ·Машинное обучение

Автоматическая оптимизация 3D-генерации с помощью VLM-судьи

Исследователи представили новый метод улучшения качества генерации 3D-объектов по одному изображению. В основе подхода лежит использование мультимодальной языковой модели (VLM) в качестве автоматического судьи, который оценивает и ранжирует качество создаваемых мешей. Традиционные метрики, такие как CLIP или упрощенные геометрические прокси, часто оказываются недостаточно точными для оценки сложных 3D-структур, поэтому новая система предлагает более надежный способ фильтрации результатов.

Авторы работы применили этот механизм для дообучения генеративной модели TRELLIS на узкоспециализированном классе объектов — мебели. Ключевая особенность метода заключается в переходе от простого ранжирования к прямой оптимизации параметров модели без участия человека и без необходимости в размеченных наборах данных. Это позволяет значительно повысить детализацию и геометрическую корректность объектов при минимальных вычислительных затратах.

Данный подход демонстрирует эффективность использования «судейских» моделей для итеративного улучшения генеративных систем. Исключение ручной разметки из процесса обучения открывает возможности для масштабируемой настройки нейросетей под конкретные предметные области, что критически важно для развития инструментов автоматического создания 3D-контента для индустрии дизайна и разработки виртуальных сред.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука VLM-IE3D: новый подход к пространственному мышлению мультимодальных моделей Исследователи представили VLM-IE3D — архитектуру, которая наделяет мультимодальные модели (VLM) способностью к глубокому пониманию 3D-пространства. В отличие от стандартных моделей, работающих с 2D-изображениями, этот фреймворк интегрирует явные и неявные геометрические представления, что позволяет ИИ точнее интерпретировать пространственные отношения объектов, глубину и структуру сцены, значительно повышая качество выполнения задач, требующих 3D-рассуждений. arXiv · Исследования и наука Генерация 3D-интерьеров сложной геометрии с помощью LLM Исследователи представили новый метод синтеза 3D-сцен для помещений со сложной, неортогональной геометрией (non-Manhattan environments). В отличие от существующих решений, ориентированных на стандартные прямоугольные планировки, предложенный подход позволяет эффективно моделировать нестандартные пространственные связи и объекты, значительно снижая количество геометрических ошибок и повышая физическую достоверность создаваемых интерьеров на основе текстовых описаний. arXiv · Машинное обучение Метод семантической коррекции для авторегрессионных визуальных моделей Исследователи представили новый подход к повышению качества генерации изображений и видео в авторегрессионных визуальных моделях (AVM). Основная проблема таких систем заключается в многомасштабном подходе к синтезу: процесс разбивается на дискретные этапы с разной степенью детализации, из-за чего семантические ошибки, допущенные на ранних стадиях, накапливаются и приводят к искажениям в финальном результате. Hacker News · Оценка и бенчмарки Новые методы повышения точности LLM как судей в оценке моделей Исследователи представили усовершенствованные подходы к использованию LLM в качестве «судей» для автоматизированной оценки качества ответов других моделей. Авторы статьи систематизировали методы минимизации предвзятости и повышения корреляции оценок ИИ с человеческими предпочтениями, предложив новые стратегии промптинга и калибровки, которые позволяют значительно точнее определять качество генерации в сложных задачах без привлечения экспертов-людей. arXiv · Оценка и бенчмарки 3D-DefectBench: стандартизация оценки качества генеративных 3D-моделей Исследователи представили 3D-DefectBench — комплексный фреймворк для оценки качества генерации 3D-объектов с помощью мультимодальных моделей (VLM). Авторы проанализировали влияние различных этапов пайплайна, включая методы рендеринга, способы подачи визуальных данных и формулировки промптов, чтобы минимизировать зависимость от дорогостоящей ручной проверки и повысить точность автоматизированных систем контроля дефектов в генеративном дизайне. arXiv · Исследования и наука SAM3D-Guided: новый метод улучшения 3D-восприятия для робототехнических VLA-моделей Исследователи представили фреймворк SAM3D-Guided, направленный на устранение дефицита пространственного понимания у Vision-Language-Action (VLA) моделей. В отличие от стандартных решений, опирающихся на 2D-бэкенды, новый подход интегрирует объектно-ориентированные 3D-представления. Это позволяет роботам точнее взаимодействовать с объектами в условиях окклюзии, изменения масштаба и вариативности поз, значительно повышая качество манипуляций в сложных визуальных сценах. arXiv · Исследования и наука Новый метод обучения видеомоделей Shell-LCC без внешних функций вознаграждения Исследователи представили метод Shell-LCC, позволяющий оптимизировать диффузионные модели для генерации видео без использования внешних моделей вознаграждения или дорогостоящего обучения с подкреплением (RLHF/DPO). Авторы доказывают, что структура данных сама по себе содержит скрытые сигналы, которые можно использовать для улучшения качества генерации, что значительно снижает вычислительные затраты и зависимость от человеческой разметки при сохранении высокой детализации контента. arXiv · Машинное обучение Оптимизация визуальных токенов в VLM через энтропийный анализ Исследователи представили метод Entropy-Aware Dense Visual Token Pruning, направленный на ускорение работы мультимодальных моделей (VLM). Технология решает проблему избыточности визуальных данных, отсекая нерелевантные фрагменты изображений. Новый подход позволяет сохранять критически важные детали при выполнении сложных запросов, устраняя влияние текстового шума на процесс кросс-модального сопоставления и повышая общую эффективность инференса моделей. arXiv · Машинное обучение Оптимизация дообучения Vision-Language-Action моделей Исследователи обнаружили, что для эффективной адаптации Vision-Language-Action (VLA) моделей к конкретным задачам робототехники не требуется задействовать все параметры архитектуры. Анализ показал, что значительная часть слоев в таких моделях избыточна при дообучении на специализированных наборах данных. Использование метода частичной настройки позволяет существенно снизить вычислительные затраты без потери качества управления роботами. arXiv · Исследования и наука Новый метод обучения LVLM через визуально обоснованную саморефлексию Исследователи представили метод обучения мультимодальных моделей (LVLM), который улучшает их способность к саморефлексии через подкрепление (RL). В отличие от стандартных моделей, которые часто игнорируют визуальные данные при исправлении ошибок, новый подход заставляет нейросеть опираться на исходное изображение при анализе цепочки рассуждений, что значительно повышает точность коррекции логических выводов.

← Все материалы