Инженеры Netflix представили результаты исследований в области генеративного видео, сосредоточившись на повышении управляемости процесса редактирования. Основная задача проекта — дать создателям контента возможность вносить точечные изменения в видеоряд, сохраняя при этом временную согласованность и визуальную целостность исходного материала. В отличие от стандартных генеративных моделей, которые часто работают как «черный ящик», предложенный подход опирается на методы, позволяющие пользователям задавать конкретные параметры трансформации объектов и фоновых элементов.
В основе исследования лежит использование специализированных архитектур, которые позволяют разделять контент на слои и управлять ими независимо. Это критически важно для профессионального видеопроизводства, где требуется высокая точность при наложении эффектов или изменении освещения. Специалисты компании экспериментируют с интеграцией управляющих сигналов, таких как текстовые описания в сочетании с визуальными масками, что позволяет добиваться предсказуемого результата без необходимости перегенерировать весь ролик целиком.
Разработка направлена на решение проблемы «галлюцинаций» и непредсказуемых искажений, характерных для современных диффузионных моделей при работе с видео. Исследователи подчеркивают, что текущие наработки находятся на ранней стадии, однако они уже демонстрируют потенциал для автоматизации рутинных задач постпродакшена. Внедрение подобных инструментов в будущем позволит сократить время на цветокоррекцию, ротоскопинг и другие трудоемкие процессы, требующие участия специалистов по визуальным эффектам.