Hacker News · 01.07.2026 ·Инференс и железо

Pollux: новая LLM с квантованием до 0,76 бит на параметр

Разработчики представили Pollux — языковую модель, использующую метод нативной векторной квантования, который позволяет сжать параметры до рекордных 0,76 бит. Этот подход существенно снижает требования к объему оперативной памяти, сохраняя при этом работоспособность модели, что открывает новые возможности для запуска сложных нейросетей на потребительском оборудовании с ограниченными ресурсами.

Традиционные методы квантования часто приводят к заметной потере качества генерации при попытке достичь экстремально низких значений бит на параметр (bpw). Векторное квантование в Pollux позволяет группировать веса в векторы и сопоставлять их с кодовой книгой, что обеспечивает более эффективное представление данных по сравнению со скалярным квантованием. Это решение ориентировано на оптимизацию инференса и позволяет запускать модели на устройствах, где раньше это было невозможно из-за нехватки VRAM.

Технология опирается на архитектуру, где веса модели не просто округляются, а аппроксимируются через заранее обученные словари векторов. Такой подход позволяет достичь высокой степени сжатия без катастрофического падения точности, что делает модель перспективным инструментом для локального запуска LLM. Проект доступен в виде открытого исходного кода для дальнейшего тестирования и интеграции в существующие пайплайны инференса.

Ключевые факты

Уровень сжатия модели составляет 0,76 бит на параметр (bpw).
Использован метод нативного векторного квантования вместо стандартного скалярного.
Проект опубликован в открытом доступе на GitHub для анализа и доработки.
Оптимизация направлена на снижение нагрузки на видеопамять при сохранении функциональности LLM.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо MLX-Optiq: квантование LLM для Apple Silicon Команда MLX представила MLX-Optiq — инструмент для переноса больших языковых моделей (LLM) на устройства Apple Silicon с поддержкой смешанной точности. Это решение позволяет значительно сократить потребление памяти и вычислительных ресурсов при инференсе моделей, что особенно важно для мобильных и встраиваемых устройств. Hacker News · Инференс и железо VoltanaLLM: оптимизация энергопотребления при инференсе больших языковых моделей Исследователи представили VoltanaLLM — систему для повышения энергоэффективности при развертывании больших языковых моделей. Решение оптимизирует процесс инференса, снижая потребление электроэнергии без существенной потери точности вычислений. Технология ориентирована на серверные инфраструктуры, где затраты на питание и охлаждение GPU становятся критическим фактором при масштабировании агентных систем и сложных LLM-приложений. Hacker News · Оценка и бенчмарки Microsoft представила BenchPress для прогнозирования результатов LLM на бенчмарках Microsoft выпустила инструмент BenchPress, позволяющий предсказывать производительность больших языковых моделей на различных бенчмарках без необходимости их полного тестирования. Система использует мета-обучение для оценки способностей модели на основе ограниченного набора данных, что значительно сокращает вычислительные затраты и время, требуемое для оценки новых архитектур и версий моделей в процессе их разработки. arXiv · Исследования и наука ИИ-модели ускоряют поиск квантовых кодов коррекции ошибок Исследователи применили большие языковые модели для автоматизированного поиска новых квантовых кодов с малой плотностью проверок на четность (qLDPC). Использование LLM позволило эффективно решать сложные дискретные задачи проектирования, которые критически важны для масштабирования квантовых вычислений. Метод структурированной эволюции концепций помог обнаружить коды, превосходящие существующие аналоги по ряду параметров, открывая путь к созданию более надежного квантового оборудования. Hacker News · Инференс и железо Запуск современных LLM на архитектуре PowerPC Энтузиасты успешно адаптировали запуск больших языковых моделей на устаревшем оборудовании Apple PowerPC G4, используя оптимизированные библиотеки инференса. Несмотря на архитектурные ограничения процессоров начала 2000-х годов, проект демонстрирует возможности портирования современных методов обработки данных на нетипичные вычислительные платформы, что расширяет границы применимости локальных моделей вне стандартных x86 и ARM-систем. MarkTechPost · Инференс и железо Liquid AI выпустила компактную модель LFM2.5-230M для локального запуска Компания Liquid AI представила LFM2.5-230M — свою самую компактную нейросеть с 230 млн параметров. Модель оптимизирована для работы на периферийных устройствах, демонстрируя высокую скорость генерации текста. Она поддерживает популярные фреймворки инференса, такие как llama.cpp и vLLM, и показывает превосходство над более крупными аналогами в задачах извлечения данных и выполнения инструкций. Hacker News · Машинное обучение Техники оптимизации LLM: от квантования до эффективного инференса Оптимизация больших языковых моделей становится критическим этапом для снижения затрат и повышения скорости работы ИИ-систем. Основные методы включают квантование весов, использование специализированных форматов данных и оптимизацию алгоритмов внимания. Эти подходы позволяют запускать мощные модели на ограниченном железе, сохраняя при этом высокую точность генерации и минимизируя задержки при обработке запросов в реальном времени. Hacker News · Инференс и железо Оптимизация производительности обработки промптов в llama.cpp Исследователь проанализировал влияние механизма Multi-Token Prediction (MTP) на скорость обработки промптов (Prompt Processing Tokens Per Second) в библиотеке llama.cpp. В ходе экспериментов удалось выявить причины деградации производительности при использовании MTP и разработать прототип (PoC), который восстанавливает показатели TPS, сохраняя при этом архитектурные преимущества многотокенового предсказания для LLM. Hacker News · Машинное обучение ParallelKernelBench: оценка способности LLM писать эффективные GPU-ядра Команда Together AI представила ParallelKernelBench — специализированный бенчмарк для оценки навыков больших языковых моделей в написании высокопроизводительного кода для параллельных вычислений на GPU. Исследование фокусируется на способности ИИ генерировать оптимизированные CUDA-ядра, что критически важно для ускорения обучения и инференса нейросетей, требующих эффективного распределения нагрузки между несколькими графическими процессорами. Hacker News · Инференс и железо Инструмент для подбора LLM под объем видеопамяти GPU Появился специализированный веб-сервис, позволяющий фильтровать языковые модели по требованиям к видеопамяти (VRAM). Инструмент помогает разработчикам и энтузиастам быстро определить, какие модели можно запустить локально на имеющемся оборудовании, учитывая параметры квантования и архитектурные особенности, что значительно упрощает процесс выбора подходящих LLM для локального инференса.

← Все материалы