Google обновила API модели Gemini 1.5 Flash, добавив нативные инструменты для работы с видеоконтентом. Теперь разработчики могут использовать модель для генерации видеороликов, а также для их покадрового редактирования и анализа. Обновление направлено на ускорение создания мультимедийного контента за счет прямой интеграции возможностей модели в сторонние приложения и сервисы через API.

Функциональность Omni-режима позволяет модели обрабатывать видеопотоки в реальном времени, что открывает возможности для создания интерактивных видеоассистентов и инструментов автоматизированного монтажа. Модель способна не только интерпретировать визуальный ряд, но и вносить изменения в структуру видео, опираясь на текстовые промпты пользователя. Это значительно упрощает пайплайны обработки данных, исключая необходимость использования промежуточных инструментов для конвертации форматов или предварительной разметки.

Интеграция в Gemini API делает эти возможности доступными для масштабируемых бизнес-решений, от автоматизации маркетинговых видео до создания персонализированных обучающих материалов. Использование модели в режиме Flash обеспечивает низкую задержку при инференсе, что критически важно для приложений, работающих с потоковыми данными или требующих быстрой генерации контента по запросу.

Ключевые факты

  • Модель Gemini 1.5 Flash теперь поддерживает нативную генерацию и редактирование видео через API.
  • Обновление позволяет выполнять покадровое редактирование видеоконтента на основе текстовых инструкций.
  • Omni-режим обеспечивает низкую задержку обработки, подходящую для задач в реальном времени.
  • Инструментарий доступен через Google AI Studio и Vertex AI для интеграции в сторонние продукты.
  • Модель оптимизирована для работы с длинными контекстными окнами, что позволяет анализировать и изменять видео большой длительности.