Исследователи представили метод Visual Skipping, позволяющий оптимизировать работу мультимодальных LLM при обработке длинных визуальных последовательностей. В отличие от традиционных подходов, удаляющих целые токены или слои, новый алгоритм выборочно пропускает вычисления на уровне отдельных операторов. Это позволяет сохранять важные визуальные детали, значительно снижая вычислительную нагрузку и ускоряя генерацию ответов без существенной потери качества.
Современные мультимодальные модели тратят значительные ресурсы на обработку визуальных данных, так как количество токенов изображения растет пропорционально разрешению. Существующие методы ускорения часто действуют слишком грубо, отбрасывая полезную информацию вместе с избыточной. Предложенный подход анализирует вклад каждого оператора в процесс обработки визуального контекста и отключает только те из них, которые не вносят значимого вклада в итоговый результат на конкретном этапе.
Технология позволяет гибко управлять балансом между скоростью инференса и точностью модели. Применение метода на уровне операторов обеспечивает более тонкую настройку, чем при удалении токенов, что особенно критично для задач, требующих анализа мелких деталей на изображениях или длинных видеопоследовательностей. Это решение открывает путь к более эффективному развертыванию тяжелых мультимодальных систем на устройствах с ограниченными вычислительными мощностями.
Ключевые факты
- Метод фокусируется на оптимизации обработки визуальных токенов в мультимодальных LLM.
- Реализован пропуск вычислений на уровне отдельных операторов вместо удаления целых слоев или токенов.
- Подход минимизирует потерю «мелкозернистых» данных, важных для точности модели.
- Технология направлена на снижение общей вычислительной сложности инференса при работе с длинными визуальными последовательностями.