Hacker News · 27.06.2026 ·Инференс и железо

Оптимизация llama.cpp: ускорение обработки промптов на 20%

Разработчик представил патч для популярного движка инференса llama.cpp, который повышает скорость обработки промптов (prompt processing) на 20%. Улучшение достигнуто за счет оптимизации вычислительных операций при работе с контекстом, что критически важно для систем с длинными входными данными. Автор ищет сообщество для тестирования и подготовки кода к включению в основной репозиторий проекта.

Проблема низкой производительности при обработке больших объемов текста в LLM часто упирается в неэффективное использование вычислительных ресурсов на этапе префил-фазы. Предложенное изменение затрагивает низкоуровневые механизмы обработки тензоров, позволяя более эффективно распределять нагрузку на графический процессор. Это дает ощутимый прирост скорости в задачах, где модель должна «прочитать» значительный объем данных перед генерацией ответа.

Интеграция подобных патчей в llama.cpp имеет большое значение для локального запуска моделей, так как проект является стандартом де-факто для многих агентных систем и RAG-решений. Повышение пропускной способности токенов в секунду (TPS) напрямую снижает время ожидания пользователя и позволяет запускать более сложные цепочки рассуждений на потребительском железе.

Ключевые факты

Прирост скорости обработки промптов составляет 20%.
Оптимизация направлена на повышение TPS (токенов в секунду) в фазе префилла.
Патч предназначен для движка llama.cpp, используемого для локального инференса LLM.
Автор инициировал процесс подготовки Pull Request для официального репозитория проекта.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо Оптимизация производительности обработки промптов в llama.cpp Исследователь проанализировал влияние механизма Multi-Token Prediction (MTP) на скорость обработки промптов (Prompt Processing Tokens Per Second) в библиотеке llama.cpp. В ходе экспериментов удалось выявить причины деградации производительности при использовании MTP и разработать прототип (PoC), который восстанавливает показатели TPS, сохраняя при этом архитектурные преимущества многотокенового предсказания для LLM. Hacker News · Машинное обучение Оптимизация LLM для ускорения генерации программного кода Исследователи представили методы оптимизации языковых моделей, направленные на повышение скорости генерации программного кода. Основная проблема при работе с кодом заключается в высокой вычислительной сложности инференса, так как структура синтаксиса требует точного предсказания длинных последовательностей токенов. Авторы работы анализируют влияние различных архитектурных решений на задержку (latency) и пропускную способность при выполнении задач программирования. Hacker News · ИИ в бизнесе Оптимизация потребления токенов в GitHub Copilot Разработчики GitHub Copilot представили обновленные подходы к управлению контекстным окном, направленные на повышение эффективности использования токенов. Основная задача изменений — сократить избыточную передачу данных в языковую модель без потери качества генерации кода. Инженеры пересмотрели алгоритмы формирования промптов, внедрив более интеллектуальные методы фильтрации и приоритизации фрагментов кода, которые действительно влияют на результат работы ИИ-ассистента. Hugging Face - Blog · Инференс и железо Оптимизация MLP в PyTorch для ускорения инференса В новом посте на Hugging Face продолжается серия о профилировании и оптимизации PyTorch, на этот раз с акцентом на слияние слоёв в многослойных перцептронах (MLP). Авторы делятся подходами к ускорению вычислений, которые могут быть критичны для локального инференса моделей, особенно в условиях ограниченных ресурсов. arXiv · Оценка и бенчмарки Исследование: риски использования LLM для автоматического исправления уязвимостей Новое исследование оценило эффективность LLM при устранении программных уязвимостей. Несмотря на способность моделей ускорять процесс написания патчей, их использование несет серьезные риски безопасности. В ходе эксперимента с участием разработчиков выяснилось, что автоматизированные подсказки часто приводят к внедрению новых ошибок или неполному исправлению критических брешей, требуя от специалистов тщательной проверки каждого предложенного решения. Hacker News · Инференс и железо DeepSeek представила методы оптимизации инференса с ускорением до 85% Компания DeepSeek опубликовала техническую документацию по методам оптимизации инференса, позволяющим ускорить генерацию текста на 60–85%. Разработка фокусируется на снижении задержек при работе с большими языковыми моделями за счет эффективного управления вычислительными ресурсами и оптимизации алгоритмов обработки токенов, что критически важно для масштабируемых агентных систем и высоконагруженных сервисов. Hacker News · Инференс и железо Автоматическая настройка параметров запуска для Llama.cpp Инструмент ggrun автоматизирует подбор оптимальных флагов запуска для Llama.cpp, позволяя пользователям находить лучшие настройки производительности без ручного тестирования. Утилита анализирует аппаратные характеристики системы и параметры модели, подбирая конфигурацию для максимально эффективного инференса. Это упрощает эксплуатацию локальных LLM, минимизируя время на поиск баланса между скоростью генерации и потреблением ресурсов на различных GPU и CPU. Hacker News · Инференс и железо Реализация инференса Llama 3.2 на NumPy в 100 строк кода Разработчики представили проект MinLlama — минималистичную реализацию инференса для модели Llama 3.2, написанную исключительно на языке Python с использованием библиотеки NumPy. Весь процесс выполнения модели, включая матричные вычисления и работу с весами, уместился в 100 строк кода. Проект демонстрирует внутреннее устройство современных LLM, исключая необходимость в тяжелых фреймворках вроде PyTorch или TensorFlow. Hacker News · Инференс и железо JetSpec ускоряет инференс LLM до 9.64 раз с помощью параллельного древовидного декодирования Исследователи представили JetSpec — новый метод оптимизации инференса больших языковых моделей, использующий параллельное древовидное декодирование. Технология позволяет достичь ускорения до 9.64 раз при сохранении точности генерации. В пиковых нагрузках система демонстрирует производительность до 1000 токенов в секунду (TPS), что значительно превосходит стандартные подходы к генерации текста. The GitHub Blog · ИИ в бизнесе GitHub оптимизирует работу Copilot через улучшенную маршрутизацию моделей GitHub представил обновления в архитектуре Copilot, направленные на повышение эффективности использования токенов и оптимизацию затрат ресурсов. Основной упор сделан на интеллектуальную маршрутизацию запросов: система теперь динамически определяет, какая модель лучше всего подходит для конкретной задачи пользователя. Это позволяет перенаправлять простые запросы на более легкие и быстрые модели, сохраняя при этом мощные вычислительные ресурсы для решения сложных программных задач.

← Все материалы