Hugging Face - Blog · 28.04.2026 ·Модели и релизы

NVIDIA Nemotron 3 Nano Omni: многомодальная модель для документов аудио и видео

NVIDIA представила новую модель Nemotron 3 Nano Omni, которая поддерживает работу с текстом, аудио и видео. Это важный шаг в развитии многомодальных моделей, которые могут обрабатывать различные типы данных. Модель поддерживает контекст длиной до 128K токенов, что позволяет обрабатывать большие документы и сложные запросы.

Nemotron 3 Nano Omni может быть использована для создания агентов, которые работают с документами, аудио и видео. Например, агент может анализировать видео и извлекать из него информацию, или обрабатывать аудио и создавать текстовые транскрипты. Это открывает новые возможности для разработки ИИ-агентов, которые могут работать с различными типами данных.

Модель доступна на платформе Hugging Face и может быть интегрирована в существующие системы. Это делает её доступной для разработчиков, которые хотят создать свои собственные ИИ-агенты. NVIDIA также предоставляет инструменты и библиотеки для работы с моделью, что упрощает процесс разработки.

Важно отметить, что Nemotron 3 Nano Omni поддерживает работу с большими контекстами, что позволяет агентам лучше понимать и обрабатывать сложные запросы. Это особенно важно для агентов, которые работают с документами и видео, где контекст может быть очень длинным и сложным.

В целом, NVIDIA Nemotron 3 Nano Omni представляет собой важный шаг в развитии многомодальных моделей и открывает новые возможности для создания ИИ-агентов. Это модель, которую стоит рассмотреть для интеграции в проекты, связанные с обработкой документов, аудио и видео.

Источник: Hugging Face - Blog

Обсудить с ИИ

Похожие материалы

Together.ai · Инференс и железо Together AI добавил Nemotron 3 Nano Omni от NVIDIA Together AI анонсировал доступ к модели Nemotron 3 Nano Omni от NVIDIA. Это мультимодальная модель, способная обрабатывать видео, изображения, аудио и текст. Разработчики подчёркивают, что модель оптимизирована для агентных нагрузок и может работать в масштабах. NVIDIA Technical Blog · Оркестрация агентов NVIDIA Nemotron 3 Ultra для ускорения работы ИИ-агентов NVIDIA представила новую версию своей модели Nemotron 3 Ultra, оптимизированную для работы с долгосрочными ИИ-агентами. Это важный шаг в развитии инфраструктуры для агентов, так как модель позволяет значительно ускорить процесс инференса и повысить эффективность работы с контекстом. NVIDIA Technical Blog · Обучение и дообучение Упрощение дообучения модели NVIDIA Nemotron-3 Nano через платформу Prime Intellect NVIDIA представила решение для ускорения кастомизации компактной модели Nemotron-3 Nano, интегрировав её в платформу Prime Intellect. Инструмент позволяет разработчикам адаптировать модель под специфические доменные задачи и языки за считанные минуты, минимизируя вычислительные затраты и техническую сложность процесса дообучения, что критически важно для создания специализированных ИИ-агентов и локальных сервисов. MarkTechPost · Модели и релизы NVIDIA представила Audex: мультимодальную модель для работы с аудио и текстом NVIDIA выпустила Audex (Nemotron-Labs-Audex-30B-A3B) — универсальную мультимодальную модель на архитектуре Mixture-of-Experts (MoE). Система объединяет возможности распознавания речи, перевода, синтеза звука и генерации текста. Ключевой особенностью стало сохранение высоких когнитивных способностей базовой модели Nemotron-Cascade-2 при минимальном снижении производительности в текстовых задачах, что делает её эффективным инструментом для комплексной обработки аудиовизуальных данных. Google DeepMind News · Модели и релизы DeepMind представила Gemini Omni DeepMind анонсировала новую модель Gemini Omni, которая позиционируется как универсальное решение для широкого спектра задач. Gemini Omni отличается улучшенной производительностью и способностью работать с мультимодальными данными, включая текст, изображения и видео. Это важный шаг в развитии ИИ, так как модель демонстрирует высокий уровень адаптивности и точности в различных сценариях. Google DeepMind News · Модели и релизы Google представила облегченные модели Nano Banana 2 Lite и Gemini Omni Flash Google расширила линейку своих ИИ-решений, выпустив Nano Banana 2 Lite и Gemini Omni Flash. Новые модели ориентированы на разработчиков, которым требуется высокая скорость отклика и эффективность при работе с мультимодальными данными. Релиз направлен на оптимизацию инференса в задачах, где критически важна низкая задержка и минимальное потребление вычислительных ресурсов на стороне клиента. Hugging Face - Blog · Безопасность и алайнмент NVIDIA представила Nemotron 3.5 Content Safety для безопасного ИИ NVIDIA анонсировала Nemotron 3.5 Content Safety — решение для обеспечения безопасности контента в мультимодальных ИИ-системах. Это обновление позволяет компаниям настраивать фильтры контента под свои нужды, что особенно важно для разработчиков ИИ-агентов, работающих с пользовательскими данными. Together.ai · Инференс и железо Together AI запустила NVIDIA Nemotron 3 Super для разработчиков Together AI объявила о доступности модели NVIDIA Nemotron 3 Super на своей платформе Dedicated Inference. Это решение обеспечивает эффективное многоагентное рассуждение, поддерживает контекстное окно в 1 миллион токенов и готово к промышленному развёртыванию на управляемой инфраструктуре. MarkTechPost · Инференс и железо NVIDIA представила Nemotron-Labs-TwoTower: диффузионную модель для ускорения генерации текста NVIDIA выпустила Nemotron-Labs-TwoTower — диффузионную языковую модель, призванную преодолеть ограничения традиционных авторегрессионных систем. В отличие от последовательной генерации токенов, новая архитектура использует диффузионный подход, что позволяет значительно увеличить пропускную способность при создании текста. Модель базируется на предобученном «хребте» Nemotron-3-Nano-30B-A3B и распространяется с открытыми весами для исследовательских и прикладных целей. NVIDIA Technical Blog · Инференс и железо MiniMax M3 и NVIDIA для агентных workflows с длинным контекстом NVIDIA и MiniMax представили решение для развёртывания агентных workflows с поддержкой длинного контекста. Это важно для разработчиков, которым приходится собирать фрагментированные пайплайны из разных моделей для текста, изображения и других задач.

← Все материалы