arXiv · 25.06.2026 ·Машинное обучение

Метод TOPS для ускорения инференса мультимодальных моделей через прунинг токенов

Исследователи представили метод TOPS (Token Optimal Preservation Sets) для оптимизации работы мультимодальных больших языковых моделей (MLLM). Технология позволяет сократить количество визуальных токенов без потери точности, решая проблему избыточных вычислений. Подход базируется на принципах выбора наиболее информативных визуальных данных, что значительно снижает вычислительную нагрузку при сохранении высокого качества мультимодального анализа и рассуждений.

Современные мультимодальные модели обрабатывают огромное количество визуальных токенов, что создает серьезные задержки при инференсе. Существующие методы прунинга часто опираются либо на механизмы внимания, которые оставляют много избыточной информации, либо на критерии разнообразия, которые могут отсекать важные детали. TOPS предлагает новый алгоритмический подход, который находит оптимальный набор токенов, сохраняя ключевые визуальные признаки для модели.

Применение данного метода позволяет ускорить работу моделей в реальных задачах, где требуется быстрая обработка изображений. Это критически важно для развертывания MLLM на устройствах с ограниченными ресурсами или в высоконагруженных облачных сервисах. Алгоритм демонстрирует эффективность в задачах визуального понимания, где требуется баланс между скоростью отклика и точностью интерпретации графических данных.

Ключевые факты

Метод TOPS фокусируется на отсечении избыточных визуальных токенов для повышения производительности MLLM.
Технология решает проблему неэффективности стандартных методов, основанных исключительно на внимании или метриках разнообразия.
Алгоритм обеспечивает сохранение критически важных визуальных признаков, необходимых для точного мультимодального рассуждения.
Оптимизация направлена на снижение вычислительных затрат, что критично для масштабируемых ИИ-систем.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы