Google DeepMind News · 09.06.2026 ·Модели и релизы

DeepMind представила Gemma 4 12B — универсальную мультимодальную модель

DeepMind представила Gemma 4 12B — универсальную мультимодальную модель

DeepMind анонсировала новую версию своей мультимодальной модели Gemma 4 12B. Это первая модель в линейке Gemma, которая работает без отдельного энкодера для текста и изображений, что делает её более универсальной и эффективной.

Gemma 4 12B способна обрабатывать текст, изображения и видео в одном пространстве представлений. Это позволяет ей выполнять задачи, требующие понимания нескольких модальностей, например, генерацию описаний для изображений или анализ видео с текстовой аннотацией.

Модель демонстрирует высокие результаты в различных бенчмарках, включая COCO, Flickr30k и MS COCO Caption. DeepMind также отмечает, что Gemma 4 12B показывает хорошие результаты в задачах, связанных с пониманием контекста и генерацией текста на основе визуальных данных.

Для разработчиков ИИ-агентов эта модель может стать важным инструментом, особенно в задачах, требующих интеграции визуальных и текстовых данных. Универсальность и эффективность Gemma 4 12B делают её перспективной для использования в различных приложениях, включая чат-боты, системы анализа изображений и видео, а также в других областях, где требуется мультимодальное понимание.

Источник: Google DeepMind News

Обсудить с ИИ

Похожие материалы

Google DeepMind News · Модели и релизы Gemma 4: открытые модели для сложных агентских сценариев DeepMind представила Gemma 4 — новую версию своих открытых моделей, позиционируемых как самые мощные на сегодняшний день. Эти модели специально оптимизированы для сложных задач, включая рассуждения и агентские workflows. Gemma 4 предлагает улучшенные возможности в обработке естественного языка, что делает её перспективной для интеграции в ИИ-агентов, требующих высокого уровня интеллектуальных способностей. Google DeepMind News · Модели и релизы DeepMind представила Gemini Omni DeepMind анонсировала новую модель Gemini Omni, которая позиционируется как универсальное решение для широкого спектра задач. Gemini Omni отличается улучшенной производительностью и способностью работать с мультимодальными данными, включая текст, изображения и видео. Это важный шаг в развитии ИИ, так как модель демонстрирует высокий уровень адаптивности и точности в различных сценариях. Google DeepMind News · Модели и релизы Gemini 3.1 Pro от DeepMind для сложных задач DeepMind представила новую модель Gemini 3.1 Pro, ориентированную на решение сложных задач, где требуется не просто ответ, а глубокий анализ и понимание контекста. Модель демонстрирует улучшенные способности в обработке сложных запросов, что делает её перспективной для применения в различных областях, включая разработку ИИ-агентов. Google DeepMind News · Машинное обучение DiffusionGemma от DeepMind ускоряет генерацию текста в 4 раза DeepMind представила новую модель DiffusionGemma, которая значительно ускоряет процесс генерации текста. Новая модель работает в 4 раза быстрее по сравнению с предыдущими решениями, что делает её одной из самых быстрых в своей категории. Это достижение может иметь значительное влияние на разработку ИИ-агентов, где скорость генерации текста играет ключевую роль в эффективности работы. Google DeepMind News · Модели и релизы Gemini 3.5 от DeepMind: интеллект с возможностью действия DeepMind представила новую модель Gemini 3.5, которая отличается от предыдущих версий способностью выполнять сложные, агентские рабочие процессы. Это значительный шаг вперёд, так как модель не только понимает контекст, но и может активно взаимодействовать с окружающей средой для достижения целей. Gemini 3.5 построена на архитектуре, которая позволяет ей интегрироваться с различными инструментами и системами, что делает её полезной для автоматизации сложных задач. Simon Willison's Weblog · Машинное обучение Google выпустила открытую модель DiffusionGemma Google представила новую открытую модель DiffusionGemma-26B-A4B-it, основанную на архитектуре Gemini. Это значимое событие, так как ранее компания демонстрировала экспериментальную версию модели, но не продолжала её развитие. Теперь модель доступна под лицензией Apache 2, что открывает возможности для широкого использования в исследовательских и коммерческих проектах. Hacker News · Инференс и железо Cerebras обеспечила сверхбыстрый инференс для мультимодальной модели Gemma 2 Компания Cerebras представила решение для ускоренного запуска мультимодальной модели Gemma 2, обеспечив беспрецедентную скорость генерации токенов. Использование специализированного аппаратного обеспечения позволяет обрабатывать запросы с минимальной задержкой, что делает систему одной из самых производительных на рынке для задач, требующих работы с текстом и изображениями в режиме реального времени. Google DeepMind News · Исследования и наука Gemini for Science: инструменты для научных открытий DeepMind представила Gemini for Science — набор инструментов и экспериментов, направленных на расширение масштабов и точности научных исследований. Этот проект включает в себя модели, способные обрабатывать и анализировать большие объемы научных данных, а также инструменты для автоматизации экспериментов и моделирования. Google DeepMind News · Модели и релизы Gemini 3.1 Flash-Lite от DeepMind: скорость и эффективность DeepMind представила новую модель Gemini 3.1 Flash-Lite, которая позиционируется как самая быстрая и экономически выгодная в серии Gemini 3. Эта модель разработана для работы в условиях масштабируемой интеллектуальной обработки, что делает её особенно привлекательной для разработчиков ИИ-агентов и сервисов. Google DeepMind News · Память и RAG Gemini Robotics-ER 1.6: новый уровень автономной робототехники DeepMind представила обновлённую версию своей системы Gemini Robotics-ER 1.6, которая значительно улучшает пространственное мышление и многоканальное восприятие роботов. Новая версия позволяет роботам лучше понимать и взаимодействовать с физическим миром, что критически важно для создания автономных агентов.

← Все материалы