Компания Cohere представила обновленную версию своей модели North Mini Code, оптимизированную для работы с использованием нового формата данных NVFP4. Технология позволяет значительно повысить производительность инференса при сохранении исходного качества генерации кода. Использование этого формата обеспечивает ускорение вычислений в 1,65 раза по сравнению со стандартным форматом FP8, при этом потребление видеопамяти снижается на 40%.

Переход на NVFP4 решает одну из ключевых проблем развертывания агентных систем — высокие требования к вычислительным ресурсам при сохранении точности ответов. Снижение объема памяти позволяет запускать более крупные или сложные модели на менее мощном оборудовании, что критично для масштабирования агентных инфраструктур. Тестирование проводилось на платформе Spark Arena, подтвердив эффективность формата для задач, требующих высокой скорости обработки кода в реальном времени.

Данное решение демонстрирует развитие методов квантования, направленных на повышение эффективности работы нейросетей без потери их функциональных характеристик. Оптимизация такого уровня позволяет разработчикам снижать затраты на инфраструктуру и уменьшать задержки при выполнении агентных цепочек, где каждый этап генерации требует значительных ресурсов GPU.