Исследователи из Meta представили ActiveSAM — метод, который оптимизирует работу Segment Anything Model 3 (SAM 3) для сегментации изображений в задачах с открытым словарём (OVSS). Основная проблема SAM 3 заключается в неэффективности: модель обрабатывает все классы из словаря, хотя в каждом изображении присутствует лишь небольшая их часть.

ActiveSAM решает эту проблему, предлагая тренировочный метод без обучения (training-free) и нулевой выстрел (zero-shot inference). Он динамически выбирает только те классы, которые действительно присутствуют на изображении, что значительно ускоряет процесс сегментации. Это особенно важно для ИИ-агентов, которые могут работать с большими объёмами визуальной информации и требуют быстрого и точного анализа.

Технология ActiveSAM может быть полезна для разработчиков ИИ-агентов, таких как Jarv, которые используют визуальные данные. Быстрая и точная сегментация изображений позволяет агентам лучше понимать контекст и выполнять задачи, связанные с обработкой визуальной информации, например, в системах компьютерного зрения или анализе изображений в реальном времени.

Исследование было опубликовано на arXiv и доступно по ссылке: https://arxiv.org/abs/2606.16996v1. Это важный шаг в направлении оптимизации работы моделей сегментации, что может значительно улучшить производительность ИИ-агентов в задачах, связанных с обработкой изображений.