Google обновила API модели Gemini 1.5 Flash, добавив нативные инструменты для работы с видеоконтентом. Теперь разработчики могут использовать модель для генерации видеороликов, а также для их покадрового редактирования и анализа. Обновление направлено на ускорение создания мультимедийного контента за счет прямой интеграции возможностей модели в сторонние приложения и сервисы через API.
Функциональность Omni-режима позволяет модели обрабатывать видеопотоки в реальном времени, что открывает возможности для создания интерактивных видеоассистентов и инструментов автоматизированного монтажа. Модель способна не только интерпретировать визуальный ряд, но и вносить изменения в структуру видео, опираясь на текстовые промпты пользователя. Это значительно упрощает пайплайны обработки данных, исключая необходимость использования промежуточных инструментов для конвертации форматов или предварительной разметки.
Интеграция в Gemini API делает эти возможности доступными для масштабируемых бизнес-решений, от автоматизации маркетинговых видео до создания персонализированных обучающих материалов. Использование модели в режиме Flash обеспечивает низкую задержку при инференсе, что критически важно для приложений, работающих с потоковыми данными или требующих быстрой генерации контента по запросу.
Ключевые факты
- Модель Gemini 1.5 Flash теперь поддерживает нативную генерацию и редактирование видео через API.
- Обновление позволяет выполнять покадровое редактирование видеоконтента на основе текстовых инструкций.
- Omni-режим обеспечивает низкую задержку обработки, подходящую для задач в реальном времени.
- Инструментарий доступен через Google AI Studio и Vertex AI для интеграции в сторонние продукты.
- Модель оптимизирована для работы с длинными контекстными окнами, что позволяет анализировать и изменять видео большой длительности.