RadixAttention в Trellis ускоряет работу моделей на 30%

The latest research from Google · Машинное обучение Sequential Attention: как ускорить модели без потери точности Исследователи Google предложили новый подход к оптимизации трансформеров — Sequential Attention. Он позволяет значительно сократить вычислительные затраты на инференс, не жертвуя точностью. В основе метода лежит идея последовательного внимания: вместо параллельной обработки всех токенов модель фокусируется на одном токене за раз, используя информацию из предыдущих шагов. Это снижает сложность вычислений с O(n²) до O(n log n), что делает модели более эффективными для локального развертывания и работы в реальном времени.

Hacker News · Инференс и железо FlashAttention-4 ускоряет инференс моделей Команда Modal выпустила обновлённую версию FlashAttention-4, которая значительно ускоряет инференс трансформеров. Это особенно важно для агентов, работающих с большими языковыми моделями, где скорость обработки запросов напрямую влияет на пользовательский опыт.

Hacker News · Машинное обучение Meta-Attention: новый подход к архитектуре нейросетей Исследователи предложили концепцию Meta-Attention, которая может стать важным шагом в развитии архитектур нейросетей. В отличие от традиционного механизма внимания, который фокусируется на конкретных элементах данных, Meta-Attention позволяет модели динамически адаптировать свои параметры внимания в зависимости от контекста. Это может значительно улучшить способность моделей обрабатывать сложные и разнообразные задачи, что особенно важно для ИИ-агентов, которым требуется гибкость и адаптивность.

Hacker News · Инференс и железо Ускорение LLM через разреженное внимание и конечные автоматы Исследователи представили новый метод ускорения работы больших языковых моделей, основанный на использовании разреженного внимания (Sparse Attention) в сочетании с архитектурой конечных автоматов с постоянным состоянием. Этот подход позволяет значительно сократить вычислительные затраты при инференсе, сохраняя при этом точность генерации текста, что критически важно для развертывания тяжелых моделей на ограниченных аппаратных ресурсах.

Hacker News · Машинное обучение Метод сбора токенов для улучшения обучения ИИ-агентов с подкреплением Исследователи Amazon представили новый подход к обучению ИИ-агентов, основанный на фиксации идентификаторов токенов в процессе их взаимодействия со средой. Метод позволяет более эффективно использовать обучение с подкреплением (RL), преобразуя последовательности действий в структурированные данные. Это помогает моделям точнее оценивать качество принятых решений и быстрее адаптироваться к сложным задачам в динамических условиях.

Together.ai · Машинное обучение Together AI представила FlashAttention-4 и ThunderAgent На конференции AI Native Conf компания Together AI анонсировала несколько ключевых разработок в области инференса и оптимизации моделей. Среди них — FlashAttention-4, ускоряющая вычисления внимания, и ThunderAgent, платформа для развертывания агентов.

Hacker News · Машинное обучение Алгебраические основы FlashAttention: как работает ускорение внимания FlashAttention произвел революцию в обучении трансформеров, позволив эффективно обрабатывать длинные контексты за счет оптимизации работы с памятью GPU. Новый разбор от RiftStack детально объясняет математическую базу алгоритма, включая технику тайлинга и перевычисления (recomputation), которые позволяют избежать записи огромных матриц внимания в медленную память HBM, значительно ускоряя вычисления.

Hacker News · Разработка и инструменты Оптимизация потребления токенов ИИ-агентами на 94% Разработчик Вивек Халдар представил метод радикального снижения затрат на токены при работе ИИ-агентов, добившись сокращения расхода на 94%. Вместо использования стандартных промптов для выполнения повторяющихся задач, автор перевел логику агента в скомпилированный код. Это позволило заменить длинные инструкции на вызов специализированных функций, что значительно повысило эффективность и предсказуемость системы.

Hacker News · Обучение и дообучение Tessera: генерация LoRA-адаптеров для ИИ-агентов менее чем за секунду Проект Tessera предлагает новый подход к повышению эффективности инференса ИИ-агентов через динамическую генерацию LoRA-адаптеров в режиме реального времени. Технология позволяет создавать специализированные веса для конкретных сессий менее чем за одну секунду, что значительно ускоряет адаптацию моделей под узкие задачи без необходимости длительного дообучения или использования тяжелых общих моделей.

Together.ai · Инференс и железо Как Together AI ускоряет работу моделей на GPU Команда Together AI, известная разработками FlashAttention и ThunderKittens, занимается оптимизацией работы моделей на графических процессорах. Их исследования направлены на сокращение разрыва между возможностями GPU и реальными задачами в производстве ИИ.

RadixAttention в Trellis ускоряет работу моделей на 30%

Похожие материалы