Zyphra выпустила семейство открытых визуально-языковых моделей Zamba2-VL с параметрами 1.2B, 2.7B и 7B. Они сочетают архитектуру Mamba2 и Transformer, что позволяет сократить время до первого токена в десять раз по сравнению с аналогами.
Модели лицензированы под Apache 2.0 и демонстрируют конкурентоспособные результаты по сравнению с другими визуально-языковыми моделями на основе Transformer.
Zamba2-VL может найти применение в задачах, требующих быстрого анализа изображений и текста, таких как автоматизация обработки документов или анализ визуального контента в реальном времени.
Разработчики отмечают, что гибридная архитектура позволяет достичь баланса между производительностью и скоростью, что делает модели привлекательными для коммерческого использования.
