Hacker News · 25.06.2026 ·Инференс и железо

Оптимизация производительности обработки промптов в llama.cpp

Исследователь проанализировал влияние механизма Multi-Token Prediction (MTP) на скорость обработки промптов (Prompt Processing Tokens Per Second) в библиотеке llama.cpp. В ходе экспериментов удалось выявить причины деградации производительности при использовании MTP и разработать прототип (PoC), который восстанавливает показатели TPS, сохраняя при этом архитектурные преимущества многотокенового предсказания для LLM.

Проблема заключается в том, что текущая реализация MTP в llama.cpp создает дополнительные вычислительные накладные расходы на этапе префил-фазы. При обработке длинных контекстов это приводит к заметному снижению пропускной способности системы. Автор исследования сфокусировался на оптимизации графа вычислений и перераспределении нагрузки между тензорными ядрами, что позволило нивелировать негативный эффект.

Данный подход демонстрирует, как глубокая настройка механизмов инференса позволяет эффективно внедрять современные методы обучения моделей, такие как MTP, без ущерба для скорости работы на локальном оборудовании. Оптимизация затрагивает низкоуровневые операции с тензорами, что критически важно для систем, работающих с высокой частотой запросов и большими объемами входных данных.

Ключевые факты

Исследование сфокусировано на устранении падения производительности TPS при использовании Multi-Token Prediction.
Разработанный PoC позволяет восстановить скорость обработки промптов до уровня стандартных моделей без MTP.
Оптимизация проведена в рамках инфраструктуры llama.cpp, популярного решения для локального запуска LLM.
Основной упор сделан на минимизацию вычислительных издержек при параллельной обработке токенов в префил-фазе.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Машинное обучение Оптимизация LLM для ускорения генерации программного кода Исследователи представили методы оптимизации языковых моделей, направленные на повышение скорости генерации программного кода. Основная проблема при работе с кодом заключается в высокой вычислительной сложности инференса, так как структура синтаксиса требует точного предсказания длинных последовательностей токенов. Авторы работы анализируют влияние различных архитектурных решений на задержку (latency) и пропускную способность при выполнении задач программирования. Hacker News · Исследования и наука Анализ эффективности использования токенов в LLM Исследователи провели аудит одного миллиарда токенов, чтобы выявить закономерности потребления ресурсов при работе с большими языковыми моделями. Основной вывод работы заключается в том, что значительная часть вычислительных затрат приходится на избыточные или неэффективные запросы, в то время как полезная информационная нагрузка составляет лишь малую долю от общего объема обработки. Hugging Face - Blog · Инференс и железо Оптимизация MLP в PyTorch для ускорения инференса В новом посте на Hugging Face продолжается серия о профилировании и оптимизации PyTorch, на этот раз с акцентом на слияние слоёв в многослойных перцептронах (MLP). Авторы делятся подходами к ускорению вычислений, которые могут быть критичны для локального инференса моделей, особенно в условиях ограниченных ресурсов. Hacker News · Инференс и железо Проблема «шумных соседей» при масштабировании LLM При одновременном обслуживании множества пользователей на общих вычислительных мощностях возникает проблема «шумных соседей». Она заключается в том, что запросы с высокой интенсивностью или сложной структурой могут замедлять работу системы для остальных клиентов, потребляя непропорционально большую долю ресурсов GPU. Это приводит к росту задержек и нестабильной производительности сервисов, использующих языковые модели. Hacker News · Инфраструктура для агентов Оптимизация затрат на LLM через динамическую маршрутизацию запросов Разработан инструмент для автоматической маршрутизации запросов к языковым моделям на основе их стоимости и производительности. Система анализирует входящий промпт и выбирает наиболее экономически эффективную модель, способную справиться с конкретной задачей. Решение интегрируется с библиотеками PydanticAI и LiteLLM, что позволяет разработчикам внедрять логику выбора провайдера непосредственно в пайплайны обработки данных. Hacker News · Обучение и дообучение Оптимизация локального обучения и инференса LLM с Unsloth Библиотека Unsloth позволяет значительно ускорить процесс дообучения и запуска популярных языковых моделей на локальном оборудовании. Инструмент оптимизирует использование видеопамяти и повышает скорость вычислений при работе с архитектурами Llama, Mistral и Phi. За счет переработки алгоритмов градиентного спуска и использования специализированных ядер CUDA, разработчики добиваются снижения потребления ресурсов до 70% при сохранении точности весов. Hacker News · Инференс и железо DualPath: новый метод оптимизации пропускной способности памяти при работе LLM Исследователи представили DualPath — архитектурное решение, устраняющее «узкое горлышко» пропускной способности памяти при инференсе агентных LLM. Метод разделяет потоки данных для обработки весов модели и контекста, что позволяет значительно ускорить генерацию токенов в сценариях с длинным контекстом и частыми обращениями к памяти, характерными для современных автономных агентов. Hacker News · Инференс и железо VoltanaLLM: оптимизация энергопотребления при инференсе больших языковых моделей Исследователи представили VoltanaLLM — систему для повышения энергоэффективности при развертывании больших языковых моделей. Решение оптимизирует процесс инференса, снижая потребление электроэнергии без существенной потери точности вычислений. Технология ориентирована на серверные инфраструктуры, где затраты на питание и охлаждение GPU становятся критическим фактором при масштабировании агентных систем и сложных LLM-приложений. arXiv · Память и RAG TokenPilot: эффективное управление контекстом для LLM-агентов Исследователи из MIT и других ведущих университетов представили TokenPilot — новый подход к управлению контекстом для LLM-агентов, который решает проблему накопления контекста в длительных сессиях. arXiv · Исследования и наука Закон масштабирования для прогнозирования биржевых стаканов Исследователи проанализировали применимость законов масштабирования (scaling laws) к задачам прогнозирования лимитных книг заявок (LOB). Изучив широкий спектр моделей — от простых деревьев решений до специализированных нейронных архитектур, таких как MLPLOB, — авторы установили, что зависимость между вычислительными затратами на инференс и точностью прогноза описывается степенным законом. Это позволяет оптимизировать архитектуры для высокочастотного трейдинга.

← Все материалы