Исследователи из Университета Эмори и IBM представили метод управляемого поиска (Governed AI retrieval), который значительно оптимизирует работу RAG-систем. Технология позволяет достичь 97% точности ответов, сокращая при этом расход токенов на 67%. Подход фокусируется на строгом контроле контекста, что минимизирует галлюцинации и повышает эффективность обработки данных в корпоративных ИИ-решениях.

Традиционные системы RAG часто перегружают контекстное окно модели избыточной информацией, что ведет к росту стоимости инференса и снижению качества ответов из-за «шума». Новый метод внедряет слой управления, который фильтрует и верифицирует извлекаемые данные перед их передачей в LLM. Это позволяет модели фокусироваться только на релевантных фрагментах, исключая необходимость обработки огромных массивов неструктурированного текста.

Внедрение такой архитектуры критически важно для компаний, работающих с большими базами знаний, где точность ответов напрямую влияет на бизнес-процессы. Оптимизация потребления токенов не только снижает прямые затраты на API, но и ускоряет время отклика системы, делая работу с ИИ-ассистентами более предсказуемой и масштабируемой в условиях высокой нагрузки.

Ключевые факты

  • Точность ответов системы при использовании нового метода достигает 97%.
  • Расход токенов на обработку запросов сокращается на 67% по сравнению со стандартными RAG-пайплайнами.
  • Исследование проведено специалистами Университета Эмори совместно с экспертами IBM.
  • Метод направлен на снижение уровня галлюцинаций за счет внедрения верифицируемого управления контекстом.
  • Технология позволяет оптимизировать стоимость эксплуатации LLM в корпоративной среде.