Lobsters · 22.06.2026 ·Инфраструктура для агентов

TIRx: новый стек компиляторов для оптимизации ML-ядер

Проект Apache TVM представил TIRx — специализированный стек компиляторов, предназначенный для работы с быстро меняющимися ML-ядрами (kernels). Инструмент решает проблему фрагментации при разработке высокопроизводительного кода для современных нейросетевых архитектур, позволяя автоматизировать генерацию и оптимизацию низкоуровневых операций под специфическое «железо».

Основная задача TIRx заключается в упрощении процесса адаптации моделей к новым вычислительным ускорителям. В отличие от традиционных подходов, требующих ручного написания кода под каждый тип процессора или графического чипа, новый стек предоставляет унифицированный интерфейс для описания тензорных вычислений. Это позволяет разработчикам инфраструктуры быстрее внедрять поддержку новых типов слоев и операций, сохраняя при этом высокую эффективность исполнения на уровне железа.

Система ориентирована на поддержку «граничных» (frontier) моделей, архитектура которых постоянно усложняется. Благодаря модульной структуре, TIRx позволяет интегрировать новые методы оптимизации без переписывания базового компилятора. Это критически важно для масштабирования инференса и обучения крупных моделей, где производительность каждого отдельного ядра напрямую влияет на общую скорость работы системы и затраты на вычислительные ресурсы.

Источник: Lobsters

Похожие материалы

Hacker News · Инференс и железо Новый фреймворк для JIT-компиляции ускоряет работу ИИ-моделей Исследователи представили новый фреймворк для JIT-компиляции, который может значительно ускорить выполнение ИИ-моделей. Система использует многоуровневую JIT-компиляцию в рамках мета-трейсинга, что позволяет оптимизировать код на лету и повышать производительность. Hacker News · Инференс и железо Tensordyne оптимизирует вычисления для ИИ с помощью логарифмических операций Стартап Tensordyne представил подход к оптимизации вычислительных процессов для нейросетей, основанный на использовании логарифмической арифметики вместо стандартных операций с плавающей запятой. Традиционные вычисления, используемые в современных графических процессорах, требуют значительных затрат энергии и ресурсов при выполнении операций умножения, которые составляют основу работы трансформеров. Hacker News · Инфраструктура для агентов Ускорение генерации кода TVM с помощью кэширования графов задач Исследователи предложили новый метод ускорения генерации кода в TVM — популярном фреймворке для компиляции и оптимизации моделей машинного обучения. В основе метода лежит кэширование графов задач, что позволяет значительно сократить время компиляции. MarkTechPost · Инференс и железо MoonMath AI представила оптимизированное ядро внимания для ускорителей AMD MI300X Компания MoonMath AI опубликовала исходный код нового HIP-ядра (Heterogeneous-Compute Interface for Portability), предназначенного для ускорения операций внимания (attention) на графических процессорах AMD Instinct MI300X. Разработка призвана повысить производительность вычислений при работе с большими языковыми моделями на аппаратном обеспечении AMD. Hacker News · Машинное обучение Ускорение оптимизации ядер Helion с помощью LLM Команда PyTorch представила новый подход к автоматической настройке (autotuning) вычислительных ядер Helion, используемых в высокопроизводительных вычислениях. Ранее процесс подбора оптимальных параметров для этих ядер занимал минуты из-за необходимости перебора огромного пространства конфигураций. Использование языковых моделей позволило сократить время оптимизации до нескольких секунд, сохраняя при этом высокую эффективность выполнения операций. Hacker News · Машинное обучение Оптимизация LLM для ускорения генерации программного кода Исследователи представили методы оптимизации языковых моделей, направленные на повышение скорости генерации программного кода. Основная проблема при работе с кодом заключается в высокой вычислительной сложности инференса, так как структура синтаксиса требует точного предсказания длинных последовательностей токенов. Авторы работы анализируют влияние различных архитектурных решений на задержку (latency) и пропускную способность при выполнении задач программирования. Hacker News · Инференс и железо AMD оптимизирует инференс для своих GPU Instinct AMD представила Atom Inference Engine — фреймворк для оптимизации работы моделей машинного обучения на графических процессорах Instinct. Решение сочетает аппаратные и программные компоненты, что позволяет ускорить выполнение задач инференса. Hacker News · Инференс и железо Оптимизация инференса через компиляцию моделей в единый мегакернел Разработан метод, позволяющий компилировать любые модели с платформы HuggingFace в единый персистентный мегакернел. Такой подход направлен на радикальное ускорение работы нейросетей за счет минимизации накладных расходов при выполнении операций на графическом процессоре. Hacker News · Инференс и железо Оптимизация потребления VRAM через пропуск тайлов в архитектурах без Softmax Разработчики представили архитектурное решение для моделей с длинным контекстом, позволяющее существенно снизить требования к видеопамяти. Метод основан на использовании специализированных ядер (kernels) для пропуска вычислений в определенных сегментах данных, что исключает необходимость выполнения операции Softmax на каждом этапе обработки последовательности. Hacker News · Инференс и железо Оптимизация Attention для ускорителей AMD MI300X на языке HIP Разработчики представили высокопроизводительное ядро (kernel) для вычисления механизма внимания (Attention), оптимизированное специально под архитектуру графических ускорителей AMD Instinct MI300X. В отличие от большинства существующих решений, требующих написания низкоуровневого кода на ассемблере, данная реализация выполнена на языке HIP (Heterogeneous-compute Interface for Portability). Это значительно упрощает поддержку, отладку и переносимость кода между различными поколениями оборудования AMD, сохраняя при этом высокую скорость работы.

← Все материалы