Together.ai · 30.03.2026 ·Инференс и железо

Aurora: фреймворк для самоподдерживающегося speculative decoding

Aurora: фреймворк для самоподдерживающегося speculative decoding

Together AI представила Aurora — открытый фреймворк для reinforcement learning (RL), который преобразует speculative decoding из одноразовой настройки в самоулучшающуюся систему. Aurora обучается на каждом запросе, что позволяет повысить производительность модели на 25% по сравнению с традиционными методами.

Спекулятивное декодирование ускоряет генерацию текста, но обычно требует сложной предварительной настройки. Aurora автоматизирует этот процесс, создавая цикл обратной связи, где модель постоянно улучшает свои стратегии декодирования.

Фреймворк совместим с различными моделями и может быть интегрирован в существующие инфраструктуры. Together AI планирует развивать Aurora как часть открытой экосистемы, приглашая сообщество к участию в доработке и тестировании.

Aurora может найти применение в чат-ботах, генерации кода и других задачах, где важна скорость и точность вывода. Вместе с тем, фреймворк демонстрирует потенциал RL в оптимизации инференса, что может стать важным шагом в развитии ИИ-агентов.

Источник: Together.ai

Обсудить с ИИ

Похожие материалы

GitHub · Инфраструктура для агентов Представлен фреймворк AxisRL для обучения ИИ-агентов с подкреплением Команда XYZ-AI-Lab выпустила AxisRL — специализированный фреймворк для пост-тренировки ИИ-агентов с использованием обучения с подкреплением (RL). Решение объединяет возможности высокопроизводительного инференса SGLang, масштабируемые методы обучения Megatron и реальные сценарии взаимодействия агентов, позволяя оптимизировать модели для выполнения сложных многошаговых задач в динамических средах. GitHub · Обучение и дообучение Tencent представил фреймворк UniRL для обучения мультимодальных моделей Компания Tencent выпустила фреймворк UniRL, предназначенный для обучения мультимодальных моделей с использованием подкрепляющего обучения (Reinforcement Learning). Этот инструмент позволяет интегрировать различные типы данных, включая текст, изображения и видео, в единый процесс обучения. Это особенно важно для разработки ИИ-агентов, которые должны эффективно обрабатывать и анализировать разнообразные данные. arXiv · Машинное обучение LEAF-X: новый фреймворк для объяснения работы трансформеров в ASR Исследователи из MIT и других университетов представили LEAF-X — фреймворк для объяснения работы трансформерных моделей автоматического распознавания речи (ASR), таких как Whisper. Эти модели демонстрируют высокую точность, но их предсказания остаются «чёрными ящиками». Существующие методы объяснения ИИ (XAI) часто страдают от несоответствия между объяснениями и реальной работой модели, а также от отсутствия точной временной привязки. arXiv · Инфраструктура для агентов OpenForgeRL: новый подход к сквозному обучению ИИ-агентов Исследователи представили OpenForgeRL — фреймворк для сквозного обучения ИИ-агентов, работающих в сложных средах с использованием внешних инструментов. Решение позволяет интегрировать современные агентные обвязки (harnesses) непосредственно в пайплайны обучения с подкреплением (RL) и дообучения (SFT), устраняя разрыв между сложной логикой вывода и процессами оптимизации моделей, что ранее было технически затруднительно. Hacker News · Инфраструктура для агентов Ava Supernova: open-source агент для автоматизации написания кода Ava Supernova — это новый open-source агент, предназначенный для автоматизации задач программирования с использованием открытых весовых моделей. Инструмент ориентирован на разработчиков, которым требуется локальное решение для написания, отладки и рефакторинга кода без привязки к проприетарным API, обеспечивая полный контроль над средой исполнения и данными в процессе разработки программного обеспечения. arXiv · Инфраструктура для агентов AdaSR: адаптивное потоковое рассуждение для динамических сценариев Исследователи из MIT и Google Research представили AdaSR — фреймворк для адаптивного потокового рассуждения, который позволяет ИИ-моделям обрабатывать динамические данные, такие как аудио- и видеопотоки. В отличие от традиционных подходов, где модели анализируют статичный контекст, AdaSR работает с частичными наблюдениями, обновляя свои выводы по мере поступления новой информации. GitHub · Инфраструктура для агентов DeepSpec: фреймворк от DeepSeek для оптимизации инференса через спекулятивное декодирование Компания DeepSeek представила DeepSpec — комплексную инфраструктуру для разработки, обучения и оценки алгоритмов спекулятивного декодирования. Инструментарий позволяет ускорить генерацию текста LLM за счет использования малых моделей-черновиков, которые предсказывают токены, а затем верифицируются основной моделью. Решение предоставляет полный стек для оптимизации инференса и повышения пропускной способности систем в реальном времени. MarkTechPost · Инфраструктура для агентов Tencent открыла код AngelSpec для ускорения инференса LLM Tencent представила AngelSpec — фреймворк для обучения моделей-черновиков, предназначенных для спекулятивного декодирования. Решение поддерживает шесть архитектур и внедряет метод DFly, использующий блочную диффузию и гибридное кондиционирование. Инструмент позволяет значительно повысить скорость генерации текста на крупных языковых моделях, обеспечивая прирост производительности до 2,4 раз при выполнении сложных задач инференса в распределенных средах. Hacker News · Инфраструктура для агентов Agenlus: фреймворк для обучения браузерных агентов методом проб и ошибок Разработчики представили Agenlus — открытый фреймворк для обучения ИИ-агентов взаимодействию с веб-интерфейсами через метод обучения с подкреплением (Reinforcement Learning). Система позволяет агентам самостоятельно осваивать сложные сценарии навигации и выполнения задач в браузере, обучаясь на собственных ошибках, что снижает зависимость от проприетарных API крупных технологических корпораций и закрытых экосистем. arXiv · Инференс и железо Оптимизация инференса через метод Relaxed Speculative Decoding Исследователи представили метод Relaxed Speculative Decoding, который ускоряет генерацию текста LLM за счет отказа от строгого соответствия распределению вероятностей исходной модели. В отличие от классического спекулятивного декодирования, этот подход допускает контролируемые отклонения при проверке токенов, что позволяет значительно повысить скорость инференса без необходимости дополнительного обучения вспомогательных моделей.

← Все материалы