DeepMind анонсировала новую версию своей мультимодальной модели Gemma 4 12B. Это первая модель в линейке Gemma, которая работает без отдельного энкодера для текста и изображений, что делает её более универсальной и эффективной.

Gemma 4 12B способна обрабатывать текст, изображения и видео в одном пространстве представлений. Это позволяет ей выполнять задачи, требующие понимания нескольких модальностей, например, генерацию описаний для изображений или анализ видео с текстовой аннотацией.

Модель демонстрирует высокие результаты в различных бенчмарках, включая COCO, Flickr30k и MS COCO Caption. DeepMind также отмечает, что Gemma 4 12B показывает хорошие результаты в задачах, связанных с пониманием контекста и генерацией текста на основе визуальных данных.

Для разработчиков ИИ-агентов эта модель может стать важным инструментом, особенно в задачах, требующих интеграции визуальных и текстовых данных. Универсальность и эффективность Gemma 4 12B делают её перспективной для использования в различных приложениях, включая чат-боты, системы анализа изображений и видео, а также в других областях, где требуется мультимодальное понимание.