Hacker News · 23.06.2026 ·Обучение и дообучение

Tessera: генерация LoRA-адаптеров для ИИ-агентов менее чем за секунду

Проект Tessera предлагает новый подход к повышению эффективности инференса ИИ-агентов через динамическую генерацию LoRA-адаптеров в режиме реального времени. Технология позволяет создавать специализированные веса для конкретных сессий менее чем за одну секунду, что значительно ускоряет адаптацию моделей под узкие задачи без необходимости длительного дообучения или использования тяжелых общих моделей.

Основная проблема современных агентных систем заключается в компромиссе между универсальностью модели и её точностью в специфических сценариях. Использование стандартных LoRA-адаптеров требует их предварительного обучения и хранения, что затрудняет масштабирование при работе с тысячами уникальных пользовательских запросов. Tessera решает эту задачу, перенося процесс адаптации непосредственно в пайплайн инференса.

Метод позволяет динамически подстраивать поведение модели под контекст текущей сессии, минимизируя задержки и снижая требования к вычислительным ресурсам. Это открывает возможности для создания высокоперсонализированных агентов, которые могут мгновенно переключаться между различными стилями, задачами или предметными областями, сохраняя при этом высокую скорость отклика и точность выполнения инструкций.

Ключевые факты

Время генерации LoRA-адаптера составляет менее 1 секунды.
Технология ориентирована на повышение эффективности инференса в агентных архитектурах.
Метод исключает необходимость хранения большого количества статических адаптеров для разных сценариев.
Решение доступно в виде open-source проекта для интеграции в существующие инфраструктуры инференса.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо Tessera-Hypernetwork: генерация LoRA-адаптеров за секунду Разработчики представили Tessera-Hypernetwork — инструмент для генерации LoRA (Low-Rank Adaptation) адаптеров за менее чем секунду. Это позволяет быстро настраивать большие языковые модели под конкретные задачи инференса без переобучения всей модели. LoRA-адаптеры значительно уменьшают вычислительные затраты и память, что делает их идеальными для работы с локальными моделями и агентными системами. Hacker News · Инфраструктура для агентов Оптимизация контекста для снижения расхода токенов в ИИ-агентах Разработчики представили решение, позволяющее сократить потребление токенов более чем на 60% при выполнении агентных задач. Основной принцип работы заключается в автоматическом выявлении и удалении избыточного, повторяющегося контекста, который часто накапливается в ходе многошаговых рассуждений или длительных сессий взаимодействия с языковыми моделями. Lobsters · Машинное обучение RadixAttention в Trellis ускоряет работу моделей на 30% Команда UnfoldML представила RadixAttention — новую архитектуру внимания для ускорения работы трансформеров. Внедрённая в Trellis, она позволяет сократить время инференса на 30% без потери точности. Это особенно важно для ИИ-агентов, где скорость обработки запросов напрямую влияет на пользовательский опыт. Hacker News · Инференс и железо Token-saviour снижает расход токенов в агентах на 70% Разработчики ИИ-агентов сталкиваются с проблемой высокого расхода токенов при выборе инструментов. Новый фреймворк Token-saviour предлагает решение, снижая потребление токенов на 70%. Это достигается за счёт умного маршрутизации запросов к инструментам, минимизируя избыточные вызовы и оптимизируя взаимодействие с внешними сервисами. Hugging Face - Blog · Обучение и дообучение Альтернативы LoRA в дообучении языковых моделей Метод низкоранговой адаптации (LoRA) стал стандартом в индустрии благодаря своей эффективности и низким требованиям к вычислительным ресурсам. Однако развитие области привело к появлению новых подходов, которые позволяют достигать более высоких результатов при дообучении больших языковых моделей. Исследователи анализируют альтернативные методы, такие как DoRA, QLoRA и другие техники адаптации, сравнивая их с классическим LoRA по качеству итоговых весов и стабильности обучения. arXiv · Другое Новый метод коммуникации между гетерогенными ИИ-агентами Исследователи из MIT и Google Research предложили новый подход к коммуникации между ИИ-агентами, который может значительно улучшить эффективность и точность взаимодействия между разными моделями. В статье, опубликованной на arXiv, авторы описывают метод, позволяющий агентам обмениваться информацией через плотные латентные представления, что исключает необходимость кодирования и декодирования текста, что, в свою очередь, снижает затраты и потери информации. Hacker News · Инференс и железо Tensordyne обещает революцию в инференсе благодаря логарифмической математике Компания Tensordyne заявила о прорыве в области инференса, используя логарифмическую математику для ускорения вычислений. По их словам, новая архитектура позволяет значительно снизить затраты на вычисления и повысить скорость обработки запросов. Это особенно важно для разработчиков ИИ-агентов, так как инференс остается одной из самых затратных частей работы с моделями. arXiv · Память и RAG TokenPilot: эффективное управление контекстом для LLM-агентов Исследователи из MIT и других ведущих университетов представили TokenPilot — новый подход к управлению контекстом для LLM-агентов, который решает проблему накопления контекста в длительных сессиях. Hacker News · Инфраструктура для агентов Fused Agent Kernel: оптимизация инференса для ИИ-агентов Проект Fused Agent Kernel (FAK) представляет собой специализированный набор инструментов для ускорения работы ИИ-агентов. Разработчики сфокусировались на оптимизации вычислительных ядер, которые отвечают за выполнение агентных задач, что позволило добиться четырехкратного прироста производительности на стандартных бенчмарках по сравнению с базовыми реализациями. arXiv · Инференс и железо Адаптивная компрессия токенов для временных рядов в LLM Исследователи из MIT и Google Research предложили новый подход к обработке временных рядов (TS) в языковых моделях. В статье, опубликованной на arXiv, они утверждают, что традиционный подход к токенизации, где числовые и текстовые данные обрабатываются одинаково, неэффективен. Временные ряды и текст имеют разную структуру информации, и их обработка должна учитывать эти различия.

← Все материалы