Исследователи представили новый подход к генерации изображений под названием «семантический браузинг» (Semantic Browsing). Современные диффузионные модели демонстрируют высокую точность следования текстовым запросам, однако часто страдают от низкой вариативности результатов. При попытке разнообразить генерацию существующие методы обычно вносят случайные изменения, которые не несут смысловой нагрузки и не позволяют пользователю осознанно управлять визуальными характеристиками объекта.
Предложенный метод позволяет разделять интерпретации запроса на значимые семантические категории. Вместо случайного перебора вариантов система предлагает пользователю структурированный выбор, основанный на концептуальных различиях в описании. Это решает проблему «схлопывания» генераций, когда модель выдает визуально похожие результаты, игнорируя альтернативные трактовки промпта. Технология дает возможность контролируемо исследовать пространство возможных визуализаций, сохраняя при этом высокую степень соответствия исходному запросу.
Разработка направлена на повышение гибкости инструментов генеративного дизайна. В отличие от стандартных техник повышения энтропии, семантический браузинг обеспечивает предсказуемость и осмысленность изменений. Это позволяет эффективнее использовать нейросети в задачах, требующих поиска креативных решений, где важно не просто получить качественную картинку, а изучить спектр возможных визуальных концепций, заложенных в текстовом описании.