arXiv · 15.06.2026 ·Инференс и железо

ActiveSAM ускоряет сегментацию изображений для ИИ-агентов

Исследователи из Meta представили ActiveSAM — метод, который оптимизирует работу Segment Anything Model 3 (SAM 3) для сегментации изображений в задачах с открытым словарём (OVSS). Основная проблема SAM 3 заключается в неэффективности: модель обрабатывает все классы из словаря, хотя в каждом изображении присутствует лишь небольшая их часть.

ActiveSAM решает эту проблему, предлагая тренировочный метод без обучения (training-free) и нулевой выстрел (zero-shot inference). Он динамически выбирает только те классы, которые действительно присутствуют на изображении, что значительно ускоряет процесс сегментации. Это особенно важно для ИИ-агентов, которые могут работать с большими объёмами визуальной информации и требуют быстрого и точного анализа.

Технология ActiveSAM может быть полезна для разработчиков ИИ-агентов, таких как Jarv, которые используют визуальные данные. Быстрая и точная сегментация изображений позволяет агентам лучше понимать контекст и выполнять задачи, связанные с обработкой визуальной информации, например, в системах компьютерного зрения или анализе изображений в реальном времени.

Исследование было опубликовано на arXiv и доступно по ссылке: https://arxiv.org/abs/2606.16996v1. Это важный шаг в направлении оптимизации работы моделей сегментации, что может значительно улучшить производительность ИИ-агентов в задачах, связанных с обработкой изображений.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Память и RAG Использование Segment Anything Model для интерпретации сейсмических данных Исследователи изучили применение Segment Anything Model (SAM) для интерпретации сейсмических данных, что может быть полезно для разработки ИИ-агентов, работающих с визуальной информацией. SAM, разработанный Meta, демонстрирует мощные возможности сегментации изображений на основе подсказок, что делает его перспективным инструментом для анализа сложных данных. arXiv · ИИ в бизнесе Гибридный подход к сегментации легочных узлов с помощью ИИ Исследователи представили методику совместной работы человека и нейросетей для анализа медицинских изображений, в частности, сегментации легочных узлов. Основная проблема текущих систем заключается в дефиците квалифицированных радиологов, способных проверять результаты работы алгоритмов, а также в рисках слепого доверия автоматизированным решениям. Авторы работы предлагают модель взаимодействия, в которой ИИ-инструменты дополняются участием менее опытных специалистов или даже сотрудников без профильного медицинского образования для верификации данных. arXiv · Исследования и наука SAM3D-Guided: новый метод улучшения 3D-восприятия для робототехнических VLA-моделей Исследователи представили фреймворк SAM3D-Guided, направленный на устранение дефицита пространственного понимания у Vision-Language-Action (VLA) моделей. В отличие от стандартных решений, опирающихся на 2D-бэкенды, новый подход интегрирует объектно-ориентированные 3D-представления. Это позволяет роботам точнее взаимодействовать с объектами в условиях окклюзии, изменения масштаба и вариативности поз, значительно повышая качество манипуляций в сложных визуальных сценах. arXiv · Машинное обучение Повышение стабильности сегментации изображений в контексте через Concept Guidance Исследователи представили метод Concept Guidance для улучшения сегментации изображений в контексте (ICS). Подход позволяет моделям стабильно выделять целевые области на основе нескольких примеров без дообучения параметров. Новая архитектура минимизирует чувствительность нейросетей к вариациям входных данных, обеспечивая высокую точность сегментации даже при изменении условий запроса, что критически важно для надежности компьютерного зрения. The latest research from Google · Машинное обучение Sequential Attention: как ускорить модели без потери точности Исследователи Google предложили новый подход к оптимизации трансформеров — Sequential Attention. Он позволяет значительно сократить вычислительные затраты на инференс, не жертвуя точностью. В основе метода лежит идея последовательного внимания: вместо параллельной обработки всех токенов модель фокусируется на одном токене за раз, используя информацию из предыдущих шагов. Это снижает сложность вычислений с O(n²) до O(n log n), что делает модели более эффективными для локального развертывания и работы в реальном времени. arXiv · Машинное обучение SegDINO: новый метод улучшения сегментации медицинских изображений Исследователи предложили новый подход SegDINO для повышения эффективности сегментации медицинских изображений. Он основан на модели DINO, которая уже известна своими мощными визуальными представлениями, но её применение для сегментации оставалось сложным. arXiv · Машинное обучение Новый метод аугментации данных с помощью диффузионных моделей Исследователи представили метод аугментации данных для семантической сегментации, решающий проблему нехватки редких объектов и визуального разнообразия. Алгоритм использует диффузионные модели для генерации синтетических данных, сохраняя при этом высокую точность разметки. Подход опирается на оценку неопределенности, что позволяет выборочно обновлять области изображения, минимизируя риск рассогласования между сгенерированными пикселями и исходными масками сегментации. arXiv · Обучение и дообучение SPaiK: масштабируемое обучение ядерных методов для парных задач Исследователи представили SPaiK — новый метод обучения ядерных методов, оптимизированный для парных задач. В отличие от традиционных подходов, SPaiK сохраняет выразительную силу ядерных методов, но значительно снижает вычислительные и память. Это особенно важно для задач, где необходимо работать с большими объемами данных, например, в рекомендательных системах или сравнении объектов. arXiv · Машинное обучение Новый метод улучшает сегментацию медицинских изображений без меток Исследователи предложили новый подход к сегментации медицинских изображений в условиях нехватки аннотированных данных. В статье на arXiv представлен метод, который использует цепочки рассуждений (Chain of Thought, CoT) для улучшения семисупервизорного обучения. arXiv · Машинное обучение Оптимизация визуальных токенов в VLM через энтропийный анализ Исследователи представили метод Entropy-Aware Dense Visual Token Pruning, направленный на ускорение работы мультимодальных моделей (VLM). Технология решает проблему избыточности визуальных данных, отсекая нерелевантные фрагменты изображений. Новый подход позволяет сохранять критически важные детали при выполнении сложных запросов, устраняя влияние текстового шума на процесс кросс-модального сопоставления и повышая общую эффективность инференса моделей.

← Все материалы