Исследователи представили новый метод улучшения качества генерации 3D-объектов по одному изображению. В основе подхода лежит использование мультимодальной языковой модели (VLM) в качестве автоматического судьи, который оценивает и ранжирует качество создаваемых мешей. Традиционные метрики, такие как CLIP или упрощенные геометрические прокси, часто оказываются недостаточно точными для оценки сложных 3D-структур, поэтому новая система предлагает более надежный способ фильтрации результатов.
Авторы работы применили этот механизм для дообучения генеративной модели TRELLIS на узкоспециализированном классе объектов — мебели. Ключевая особенность метода заключается в переходе от простого ранжирования к прямой оптимизации параметров модели без участия человека и без необходимости в размеченных наборах данных. Это позволяет значительно повысить детализацию и геометрическую корректность объектов при минимальных вычислительных затратах.
Данный подход демонстрирует эффективность использования «судейских» моделей для итеративного улучшения генеративных систем. Исключение ручной разметки из процесса обучения открывает возможности для масштабируемой настройки нейросетей под конкретные предметные области, что критически важно для развития инструментов автоматического создания 3D-контента для индустрии дизайна и разработки виртуальных сред.