Исследователи представили JetSpec — новый метод оптимизации инференса больших языковых моделей, использующий параллельное древовидное декодирование. Технология позволяет достичь ускорения до 9.64 раз при сохранении точности генерации. В пиковых нагрузках система демонстрирует производительность до 1000 токенов в секунду (TPS), что значительно превосходит стандартные подходы к генерации текста.
Основная идея JetSpec заключается в эффективном использовании предсказаний модели для параллельной обработки нескольких вариантов продолжения текста. В отличие от традиционного авторегрессионного декодирования, где токены генерируются строго последовательно, метод строит дерево возможных путей. Это позволяет системе проверять множество гипотез одновременно, минимизируя количество обращений к памяти и вычислительным ресурсам GPU.
Метод ориентирован на снижение задержек в высоконагруженных системах, где важна скорость отклика при работе с длинными контекстами. Архитектура JetSpec минимизирует накладные расходы на переключение между ветками дерева, что делает её пригодной для интеграции в существующие пайплайны инференса без необходимости переобучения самих моделей.
Ключевые факты
- Максимальное ускорение инференса достигает 9.64x по сравнению с базовыми методами.
- Пиковая скорость генерации составляет до 1000 токенов в секунду (TPS).
- Метод является полностью lossless, то есть не приводит к потере качества или точности ответов модели.
- Технология базируется на подходе параллельного древовидного декодирования (Parallel Tree Decoding).
- Решение оптимизирует процесс авторегрессионной генерации, устраняя узкие места при последовательной обработке токенов.