Zyphra выпустила семейство открытых визуально-языковых моделей Zamba2-VL с параметрами 1.2B, 2.7B и 7B. Они сочетают архитектуру Mamba2 и Transformer, что позволяет сократить время до первого токена в десять раз по сравнению с аналогами.

Модели лицензированы под Apache 2.0 и демонстрируют конкурентоспособные результаты по сравнению с другими визуально-языковыми моделями на основе Transformer.

Zamba2-VL может найти применение в задачах, требующих быстрого анализа изображений и текста, таких как автоматизация обработки документов или анализ визуального контента в реальном времени.

Разработчики отмечают, что гибридная архитектура позволяет достичь баланса между производительностью и скоростью, что делает модели привлекательными для коммерческого использования.