Разработчики представили архитектурное решение для моделей с длинным контекстом, позволяющее существенно снизить требования к видеопамяти. Метод основан на использовании специализированных ядер (kernels) для пропуска вычислений в определенных сегментах данных, что исключает необходимость выполнения операции Softmax на каждом этапе обработки последовательности.

Технология ориентирована на модели среднего размера, в частности, на архитектуры объемом около 354 миллионов параметров. За счет разреженной обработки данных (sparse processing) система динамически определяет, какие фрагменты контекста требуют полного внимания, а какие могут быть пропущены без потери точности генерации. Это позволяет эффективно работать с длинными текстами на оборудовании с ограниченным объемом памяти.

Данный подход решает одну из ключевых проблем масштабирования LLM — квадратичный рост потребления ресурсов при увеличении длины контекста. Внедрение подобных оптимизаций на уровне ядер позволяет ускорить инференс и снизить порог входа для запуска моделей на потребительских графических процессорах, сохраняя при этом качество работы с большими массивами данных.