Инференс и железо
Как вычислительные ресурсы влияют на оценку крупных языковых моделей
Исследование на arXiv показывает, что современные оценки ИИ переходят на более сложные задачи, требующие длительных траекторий с использованием инструментов и итеративного решения проблем. Это делает результаты всё более чувствительными к объёму и распределению вычислительных ресурсов во время инференса.
Tensordyne представила процессор Napier с логарифмической математикой
Компания Tensordyne анонсировала новый AI-процессор под названием Napier, который отличается поддержкой логарифмической математики. Это открывает новые возможности для ускорения вычислений, особенно в задачах, связанных с обработкой больших объемов данных и сложными вычислениями, что критически важно для инференса моделей ИИ.
GPU как ключевой ресурс для ИИ
В статье на Hacker News поднимается тема критичности GPU для развития ИИ. Автор сравнивает графические процессоры с нефтью, подчеркивая их роль в качестве основного ресурса для обучения и инференса моделей. Это особенно актуально в контексте роста популярности локальных решений и агентов, где доступ к мощному железу становится ключевым фактором.
Интерфейсы для агентов как стратегия экономии токенов
Разработчики ИИ-агентов сталкиваются с проблемой эффективного использования токенов. В статье на Nokv.io рассматривается подход, при котором агенты получают доступ к файловой системе напрямую, что позволяет существенно снизить нагрузку на токены. Это особенно актуально для агентов, работающих с большими объемами данных, где передача информации через текстовые интерфейсы может быть неэффективной.
Экономия 67% на инференсе с Ray и vLLM на AMD MI325X
Команда Anyscale опубликовала исследование, в котором продемонстрировала значительную экономию на инференсе моделей большого языка. Используя Ray и vLLM на процессорах AMD MI325X, удалось достичь сокращения затрат на 67% за счёт разнесения (disaggregation) префикса и декодирования.
FlashQwen – новый CUDA-движок для ускоренного инференса Qwen3
Разработчики представили FlashQwen – инференс-движок для модели Qwen3, написанный с нуля на CUDA. Это решение направлено на оптимизацию работы с моделями большого языка, особенно в условиях ограниченных ресурсов. FlashQwen использует современные методы ускорения вычислений, включая кэширование и оптимизацию ядра CUDA, что позволяет значительно сократить время инференса.
Tessera-Hypernetwork: генерация LoRA-адаптеров за секунду
Разработчики представили Tessera-Hypernetwork — инструмент для генерации LoRA (Low-Rank Adaptation) адаптеров за менее чем секунду. Это позволяет быстро настраивать большие языковые модели под конкретные задачи инференса без переобучения всей модели. LoRA-адаптеры значительно уменьшают вычислительные затраты и память, что делает их идеальными для работы с локальными моделями и агентными системами.
Qualcomm ведёт переговоры о покупке Tenstorrent
Qualcomm, один из крупнейших производителей процессоров для мобильных устройств, ведёт переговоры о покупке канадской компании Tenstorrent, специализирующейся на разработке процессоров для искусственного интеллекта. Tenstorrent известна своими решениями для ускорения вычислений ИИ, включая процессоры и программное обеспечение для инференса и обучения моделей.
Nvidia DGX Station для локального развёртывания ИИ-агентов
Nvidia представила DGX Station — компактную рабочую станцию для локального развёртывания и инференса ИИ-моделей. Устройство оснащено восемью графическими процессорами Nvidia H100, что обеспечивает высокую производительность для работы с большими языковыми моделями и другими сложными ИИ-системами.
Как кеш ключ-значение влияет на VRAM при работе с длинным контекстом
Работа с длинными контекстами в ИИ-моделях — одна из ключевых задач при разработке агентов. Однако увеличение длины контекста приводит к росту потребления VRAM, что ограничивает возможности инференса на доступном железе. В статье разбирается, как именно кеш ключ-значение (KV cache) влияет на использование памяти и какие стратегии позволяют оптимизировать этот процесс.
Ускоренный локальный запуск Claude 2–8 раз
Команда Functio-AI выпустила оптимизированную версию кода для локального запуска модели Claude от Anthropic. По заявлениям разработчиков, новая версия работает в 2–8 раз быстрее оригинального кода.
Linux 7.0 добавил поддержку BPF-фильтров для IO_uring
Версия ядра Linux 7.0 внесла значительное обновление, добавив поддержку BPF-фильтров для IO_uring. Это расширение позволяет более гибко и эффективно управлять вводом-выводом, что особенно важно для высоконагруженных систем, таких как серверы, работающие с ИИ-агентами.
Исследование: срок службы GPU для ИИ дольше трёх лет
Исследование, проведённое Sean Goedecke, показывает, что графические процессоры, используемые для инференса в ИИ, служат дольше трёх лет. Это важно для разработчиков ИИ-агентов, так как позволяет планировать долгосрочные инвестиции в оборудование без частой замены.
Инструмент для профилирования CUDA на Nvidia
Команда Polar Signals представила Continuous Nvidia CUDA PC Sampling Profiler — инструмент для профилирования CUDA-приложений на графических процессорах Nvidia. Это решение позволяет в реальном времени отслеживать производительность и эффективность использования GPU, что критически важно для оптимизации работы ИИ-моделей, особенно при инференсе.
BLAKE3 на Zen 5: 13 ГБ/с для ускорения ИИ-агентов
Разработчики из компании AMD представили впечатляющие результаты тестирования хеш-функции BLAKE3 на процессорах Zen 5. Новые чипы демонстрируют скорость хеширования до 13 ГБ/с, что в несколько раз превышает показатели предыдущих поколений. Это открывает новые возможности для оптимизации работы ИИ-агентов, особенно в задачах, требующих интенсивной обработки данных.
Token-saviour снижает расход токенов в агентах на 70%
Разработчики ИИ-агентов сталкиваются с проблемой высокого расхода токенов при выборе инструментов. Новый фреймворк Token-saviour предлагает решение, снижая потребление токенов на 70%. Это достигается за счёт умного маршрутизации запросов к инструментам, минимизируя избыточные вызовы и оптимизируя взаимодействие с внешними сервисами.
ActiveSAM ускоряет сегментацию изображений для ИИ-агентов
Исследователи из Meta представили ActiveSAM — метод, который оптимизирует работу Segment Anything Model 3 (SAM 3) для сегментации изображений в задачах с открытым словарём (OVSS). Основная проблема SAM 3 заключается в неэффективности: модель обрабатывает все классы из словаря, хотя в каждом изображении присутствует лишь небольшая их часть.
Pluck: язык для вероятностного программирования с ленивым инференсом
Pluck — это новый язык программирования, ориентированный на вероятностные модели и ленивый инференс. Он позволяет разработчикам строить сложные вероятностные программы, которые могут быть выполнены с минимальными затратами ресурсов, что особенно важно для ИИ-агентов, работающих с ограниченными вычислительными мощностями.
Как снизить задержки в системах с потоковыми данными
Исследователи из MIT и Google предложили новый подход к обработке потоковых данных в системах машинного обучения, который может существенно снизить задержки и нагрузку на серверы. В статье, опубликованной на arXiv, они описывают метод, который отделяет процесс инференса от обновления состояния, используя вероятностное прореживание (probabilistic thinning).
Fastembed-rs: библиотека на Rust для генерации векторных эмбеддингов
Команда Anush008 выпустила Fastembed-rs – библиотеку на Rust для генерации векторных эмбеддингов и переранжирования. Это открытый проект, который позволяет эффективно работать с текстовыми данными, создавая векторы для последующего использования в задачах поиска, классификации и других приложениях, связанных с обработкой естественного языка.
Исследователи создали кластеры из старых смартфонов для инференса
Группа исследователей из Университета Ватерлоо (Канада) предложила необычное решение для создания низкобюджетных вычислительных центров: они собрали кластеры из старых смартфонов. По их данным, современные процессоры в смартфонах демонстрируют более высокую производительность в однопоточном режиме по сравнению с аналогичными серверными процессорами. Это открывает новые возможности для развертывания ИИ-моделей на недорогом оборудовании.
CUDA-подобная разработка для Cerebras WSE
Команда разработчиков представила проект, который позволяет использовать Cerebras WSE (Wafer Scale Engine) с CUDA-подобным подходом. Это открывает новые возможности для локального инференса моделей ИИ, особенно крупных, которые требуют значительных вычислительных ресурсов.
Token-warden: инструмент для контроля токенов в ИИ-агентах
Token-warden — это инструмент, разработанный для оптимизации использования токенов в ИИ-агентах. Он помогает контролировать и управлять расходами на токены, что особенно важно при работе с крупными языковыми моделями, где стоимость инференса может быть значительной.
Flash-KMeans: ускорение K-Means на GPU в 200 раз
Flash-KMeans — это открытая реализация алгоритма K-Means, оптимизированная для работы на GPU с использованием Triton. В отличие от существующих решений, она не меняет математическую основу алгоритма, но значительно ускоряет его выполнение за счёт оптимизации ввода-вывода и устранения проблем с конкуренцией за ресурсы.