Hacker News · 24.06.2026 ·Инфраструктура для агентов

Субмодулярный отбор контекста для оптимизации работы LLM-агентов

Исследователи представили метод субмодулярного отбора контекста, который позволяет динамически выбирать наиболее релевантную информацию для LLM-агентов. Этот подход выступает в роли подключаемого модуля, оптимизирующего подачу данных в контекстное окно. Технология позволяет агентам эффективнее обрабатывать длинные последовательности, снижая количество избыточных токенов и повышая точность ответов при работе со сложными задачами.

Традиционные методы RAG часто сталкиваются с проблемой «шумного» контекста, когда извлеченные фрагменты данных перегружают модель лишней информацией. Новый метод использует математические свойства субмодулярных функций для выбора подмножества данных, которое максимизирует информативность при заданных ограничениях на размер контекста. Это позволяет агентам сохранять высокую производительность даже при работе с обширными базами знаний.

Интеграция такого «движка» в агентные системы позволяет разработчикам гибко управлять качеством генерации, не переобучая базовые модели. Метод легко адаптируется к различным сценариям использования, от анализа юридических документов до автоматизации технической поддержки, где критически важна точность извлечения фактов из больших массивов неструктурированных данных.

Ключевые факты

Метод основан на использовании субмодулярной оптимизации для фильтрации контекста перед подачей в LLM.
Подход реализован как «pluggable engine», что позволяет интегрировать его в существующие агентные архитектуры без изменения весов моделей.
Технология решает проблему перегрузки контекстного окна, повышая точность ответов за счет удаления нерелевантных данных.
Алгоритм обеспечивает баланс между полнотой информации и вычислительными затратами на инференс.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Машинное обучение Когда данные действительно улучшают автоматизированный контекстный инжиниринг Исследование анализирует эффективность автоматизированного контекстного инжиниринга (ACE) при разработке ИИ-агентов. Автор изучает, в каких сценариях добавление размеченных данных или примеров взаимодействия существенно повышает производительность системы, а когда избыточная информация приводит к деградации контекста и росту вычислительных затрат без значимого прироста качества ответов модели. arXiv · Память и RAG ContextRL: контекст-осознанное обучение для улучшения работы ИИ-агентов Исследователи из MIT и других ведущих университетов представили новый метод ContextRL, который улучшает способность языковых моделей (LLM) работать с длинными и сложными контекстами. Проблема заключается в том, что традиционные LLM часто не могут выделить ключевые детали в объемных данных, будь то строка в логах или мелкий элемент на изображении. ContextRL использует методы подкрепляющего обучения (RL), чтобы улучшить долгосрочное рассуждение и работу с мультимодальными данными. Hacker News · Модели и релизы SubQ: новая архитектура LLM для работы с длинным контекстом Разработчики представили SubQ — специализированную языковую модель, архитектура которой оптимизирована для обработки многомиллионных контекстных окон. В отличие от стандартных моделей, использующих квадратичную зависимость вычислительных затрат от длины входных данных, SubQ применяет сублинейные методы вычислений. Это позволяет значительно снизить потребление памяти и ускорить логические операции при анализе сверхдлинных документов, баз кода или массивов данных. Hacker News · Инференс и железо DualPath: новый метод оптимизации пропускной способности памяти при работе LLM Исследователи представили DualPath — архитектурное решение, устраняющее «узкое горлышко» пропускной способности памяти при инференсе агентных LLM. Метод разделяет потоки данных для обработки весов модели и контекста, что позволяет значительно ускорить генерацию токенов в сценариях с длинным контекстом и частыми обращениями к памяти, характерными для современных автономных агентов. Hacker News · Инфраструктура для агентов Gcontext: иерархическая структура контекста для управления ИИ-агентами Проект Gcontext предлагает новый подход к управлению контекстом для ИИ-агентов, работающих в сложных средах, таких как службы технической поддержки. Инструмент использует иерархическую систему файлов llms.txt, которые объединяются в древовидную структуру. Это позволяет разработчикам структурированно передавать агенту актуальные инструкции, документацию и правила, специфичные для конкретных задач или разделов базы знаний. Hacker News · Память и RAG Проблема «долга поиска» в агентных системах Разработчики агентных систем столкнулись с концепцией «долга поиска» (retrieval debt), которая становится серьезным препятствием при масштабировании RAG-решений. По аналогии с техническим долгом в программировании, этот феномен возникает, когда качество извлечения контекста из базы знаний постепенно деградирует из-за накопления неструктурированных данных, устаревших документов или неоптимальных стратегий индексации. В результате агент начинает получать нерелевантную информацию, что ведет к галлюцинациям и снижению точности ответов, несмотря на использование современных LLM. Hacker News · Инфраструктура для агентов Оптимизация контекста для снижения расхода токенов в ИИ-агентах Разработчики представили решение, позволяющее сократить потребление токенов более чем на 60% при выполнении агентных задач. Основной принцип работы заключается в автоматическом выявлении и удалении избыточного, повторяющегося контекста, который часто накапливается в ходе многошаговых рассуждений или длительных сессий взаимодействия с языковыми моделями. arXiv · Память и RAG TokenPilot: эффективное управление контекстом для LLM-агентов Исследователи из MIT и других ведущих университетов представили TokenPilot — новый подход к управлению контекстом для LLM-агентов, который решает проблему накопления контекста в длительных сессиях. Hacker News · Инфраструктура для агентов Headroom: слой сжатия контекста для ИИ-агентов Проект Headroom представляет собой инфраструктурное решение, предназначенное для оптимизации работы с контекстным окном в агентных системах. Инструмент выступает в роли промежуточного слоя, который динамически сжимает передаваемые данные перед их отправкой в языковую модель. Это позволяет эффективно управлять объемом токенов, сохраняя при этом ключевую семантическую информацию, необходимую для выполнения задач агентом. arXiv · Исследования и наука Метод разрешения конфликтов знаний в LLM при работе с внешними данными Исследователи представили новый подход к решению проблемы противоречий между внутренними параметрическими знаниями языковых моделей и информацией, поступающей из внешнего контекста. В современных системах, использующих RAG или длинные промпты, модель часто сталкивается с ситуацией, когда данные в запросе пользователя противоречат тому, что было «выучено» моделью в процессе обучения. Это приводит к галлюцинациям или снижению точности ответов, так как модель не может эффективно приоритизировать источники данных.

← Все материалы