Hacker News · 25.06.2026 ·Память и RAG

Новый метод RAG от Emory и IBM повышает точность до 97% при снижении затрат токенов

Исследователи из Университета Эмори и IBM представили метод управляемого поиска (Governed AI retrieval), который значительно оптимизирует работу RAG-систем. Технология позволяет достичь 97% точности ответов, сокращая при этом расход токенов на 67%. Подход фокусируется на строгом контроле контекста, что минимизирует галлюцинации и повышает эффективность обработки данных в корпоративных ИИ-решениях.

Традиционные системы RAG часто перегружают контекстное окно модели избыточной информацией, что ведет к росту стоимости инференса и снижению качества ответов из-за «шума». Новый метод внедряет слой управления, который фильтрует и верифицирует извлекаемые данные перед их передачей в LLM. Это позволяет модели фокусироваться только на релевантных фрагментах, исключая необходимость обработки огромных массивов неструктурированного текста.

Внедрение такой архитектуры критически важно для компаний, работающих с большими базами знаний, где точность ответов напрямую влияет на бизнес-процессы. Оптимизация потребления токенов не только снижает прямые затраты на API, но и ускоряет время отклика системы, делая работу с ИИ-ассистентами более предсказуемой и масштабируемой в условиях высокой нагрузки.

Ключевые факты

Точность ответов системы при использовании нового метода достигает 97%.
Расход токенов на обработку запросов сокращается на 67% по сравнению со стандартными RAG-пайплайнами.
Исследование проведено специалистами Университета Эмори совместно с экспертами IBM.
Метод направлен на снижение уровня галлюцинаций за счет внедрения верифицируемого управления контекстом.
Технология позволяет оптимизировать стоимость эксплуатации LLM в корпоративной среде.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

arXiv · Память и RAG Как RAG помогает бороться с галлюцинациями в мультимодальных моделях Исследователи из MIT и других ведущих университетов предложили новый подход к снижению визуальных галлюцинаций в мультимодальных языковых моделях (MLLMs). Эти системы, способные обрабатывать как текстовые, так и визуальные данные, часто демонстрируют уверенность в своих ответах, даже когда визуальные данные слабые или неоднозначные. Это приводит к так называемым "галлюцинациям" — выводам, не соответствующим реальности. arXiv · Память и RAG Как RAG помогает ИИ-агентам решать сложные задачи через аналогии Исследователи из MIT и Google Research предложили новый подход к улучшению способности языковых моделей решать сложные задачи через аналогии. В работе, опубликованной на arXiv, они демонстрируют, как Retrieval-Augmented Generation (RAG) может быть адаптирован для более эффективного решения задач, требующих нестандартного мышления. Hacker News · Память и RAG Новая архитектура памяти для ИИ-агентов Разработчики представили архитектуру памяти для ИИ-агентов, решающую проблему ограниченного контекстного окна и неэффективного извлечения данных. Система использует многоуровневый подход к хранению информации, разделяя её на краткосрочную и долгосрочную память с механизмом семантического поиска. Это позволяет агентам сохранять контекст диалогов и накопленный опыт в течение длительного времени, значительно повышая точность выполнения сложных задач. The latest research from Google · Память и RAG Как Gemini Enterprise Agent Platform улучшает RAG для ИИ-агентов Google представил Agentic RAG — подход к Retrieval-Augmented Generation (RAG) в рамках своей платформы Gemini Enterprise Agent. Этот метод направлен на повышение надёжности и точности ответов ИИ-агентов за счёт улучшенного извлечения и использования контекста из внешних источников. Hacker News · Бизнес и инвестиции Оптимизация расходов на LLM через выбор моделей под конкретные задачи Компании все чаще переплачивают за использование топовых моделей вроде GPT-4 в задачах, которые не требуют высокого уровня рассуждений. Анализ показывает, что значительная часть запросов к API приходится на простые операции: классификацию текста, извлечение сущностей или базовую суммаризацию. Для таких процессов использование флагманских нейросетей экономически нецелесообразно, так как более компактные и специализированные модели справляются с аналогичным качеством при кратно меньшей стоимости инференса. Hacker News · Инфраструктура для агентов Оптимизация контекста для снижения расхода токенов в ИИ-агентах Разработчики представили решение, позволяющее сократить потребление токенов более чем на 60% при выполнении агентных задач. Основной принцип работы заключается в автоматическом выявлении и удалении избыточного, повторяющегося контекста, который часто накапливается в ходе многошаговых рассуждений или длительных сессий взаимодействия с языковыми моделями. Hacker News · Инфраструктура для агентов Субмодулярный отбор контекста для оптимизации работы LLM-агентов Исследователи представили метод субмодулярного отбора контекста, который позволяет динамически выбирать наиболее релевантную информацию для LLM-агентов. Этот подход выступает в роли подключаемого модуля, оптимизирующего подачу данных в контекстное окно. Технология позволяет агентам эффективнее обрабатывать длинные последовательности, снижая количество избыточных токенов и повышая точность ответов при работе со сложными задачами. The latest research from Google · Исследования и наука Исследование Google: как цепочки рассуждений улучшают извлечение знаний из LLM Исследователи Google представили метод, который значительно повышает точность извлечения фактов из внутренней памяти больших языковых моделей. Вместо прямого запроса модель сначала генерирует цепочку рассуждений, что позволяет ей эффективнее активировать параметрические знания. Этот подход помогает преодолеть ограничения стандартных моделей при ответе на вопросы, требующие глубокого контекстного понимания или редких данных. Hacker News · Память и RAG Альтернатива RAG: файловая система как метод управления контекстом Разработчики представили подход CEM888.AI, предлагающий использовать файловую систему в качестве основного механизма хранения и извлечения контекста для языковых моделей. В отличие от традиционных RAG-систем (Retrieval-Augmented Generation), которые опираются на векторный поиск по эмбеддингам, данный метод фокусируется на прямой работе с файловой структурой. Это позволяет модели обращаться к данным более предсказуемо, сохраняя иерархические связи и метаданные документов без потерь, характерных для семантического поиска. Hacker News · Память и RAG Инструмент для поиска уязвимых мест в RAG-системах Разработчики представили инструмент ragProbe, предназначенный для автоматизированного тестирования систем с дополненной генерацией (RAG). Решение помогает выявлять запросы, на которых текущий пайплайн поиска и генерации выдает неточные или ошибочные ответы, еще до этапа эксплуатации продукта конечными пользователями.

← Все материалы