Hacker News · 17.06.2026 ·Память и RAG

Альтернатива RAG: файловая система как метод управления контекстом

Разработчики представили подход CEM888.AI, предлагающий использовать файловую систему в качестве основного механизма хранения и извлечения контекста для языковых моделей. В отличие от традиционных RAG-систем (Retrieval-Augmented Generation), которые опираются на векторный поиск по эмбеддингам, данный метод фокусируется на прямой работе с файловой структурой. Это позволяет модели обращаться к данным более предсказуемо, сохраняя иерархические связи и метаданные документов без потерь, характерных для семантического поиска.

Согласно опубликованным результатам, использование файловой памяти демонстрирует высокую эффективность в задачах поиска и обработки информации. Авторы заявляют о достижении точности 99,9% в задачах AR (Answer Retrieval) и 77,2% в метриках Beam Search. Такой подход позволяет избежать проблем «зашумленности» контекста, которые часто возникают при извлечении слишком большого количества похожих по смыслу, но нерелевантных фрагментов текста из векторных баз данных.

Данная архитектура упрощает процесс интеграции внешних знаний в агентные системы, так как не требует сложного процесса векторизации и настройки параметров поиска. Файловая система выступает как структурированное хранилище, к которому модель обращается через специализированные инструменты доступа. Это решение может стать значимым дополнением к существующим методам управления памятью, особенно в сценариях, где критически важна точность цитирования и работа с большими массивами структурированных документов.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Память и RAG Почему бесконечное контекстное окно — не панацея для работы с данными Разработчики всё чаще отказываются от идеи бесконечного расширения контекстного окна LLM в пользу архитектур с внешним управлением памятью. Вместо того чтобы загружать огромные массивы данных напрямую в модель, эффективнее использовать специализированные системы поиска и извлечения информации. Это позволяет снизить затраты на инференс, повысить точность ответов и избежать проблем с «забыванием» данных при длинных контекстах. Hacker News · Память и RAG Оптимизация RAG: как отсеивать 68% лишнего контекста с помощью компактной LLM Команда Kapa.ai разработала метод фильтрации контекста для RAG-систем, позволяющий отсеивать до 68% нерелевантных данных перед подачей в основную модель. Использование компактной LLM для предварительной оценки фрагментов позволяет снизить затраты на токены и повысить точность ответов, исключая «шум» из поисковой выдачи векторных баз данных без потери качества генерации. Hacker News · Память и RAG Концепция Claude.md: почему контекстное окно — это RAM, а не диск Автор концепции Claude.md предлагает рассматривать контекстное окно LLM как оперативную память (RAM), а не как постоянное хранилище (диск). В этой модели данные, загружаемые в контекст, существуют только во время сессии, обеспечивая высокую скорость доступа и актуальность, но требуя иного подхода к управлению структурой данных и их жизненным циклом при работе с ИИ-агентами. Hacker News · Данные и инжиниринг Сравнение языковых моделей и векторных представлений в поиске Разработчики Verantyx представили анализ, сопоставляющий эффективность классических языковых моделей и векторных представлений данных при решении задач поиска. Исследование показывает, что современные системы RAG требуют баланса между семантическим поиском на основе эмбеддингов и традиционными методами обработки естественного языка для достижения высокой точности ответов и минимизации галлюцинаций в сложных корпоративных базах знаний. Hacker News · Данные и инжиниринг Почему векторный поиск — это лишь часть задачи при построении RAG Внедрение векторных баз данных стало стандартом для RAG-систем, однако реальная сложность заключается не в поиске похожих векторов, а в определении того, какие именно данные должны быть проиндексированы и извлечены. Эффективность системы зависит от качества подготовки контекста, фильтрации шума и логики выбора источников, а не только от производительности алгоритмов поиска. Hacker News · Память и RAG Новая архитектура памяти для ИИ-агентов Разработчики представили архитектуру памяти для ИИ-агентов, решающую проблему ограниченного контекстного окна и неэффективного извлечения данных. Система использует многоуровневый подход к хранению информации, разделяя её на краткосрочную и долгосрочную память с механизмом семантического поиска. Это позволяет агентам сохранять контекст диалогов и накопленный опыт в течение длительного времени, значительно повышая точность выполнения сложных задач. Hacker News · Память и RAG Почему одной памяти недостаточно: управление контекстом в ИИ-агентах Для создания эффективных ИИ-агентов простой реализации памяти недостаточно. Разработчики сталкиваются с проблемой «зашумления» контекста, когда избыточная информация снижает точность ответов модели. Статья объясняет, почему управление контекстом — фильтрация, приоритизация и структурирование данных — становится критическим этапом в архитектуре агентных систем, позволяя моделям фокусироваться на актуальных задачах и избегать галлюцинаций при работе с большими массивами данных. Hacker News · Память и RAG Сравнение методов работы с контекстом: графы, векторный поиск и сырые данные Разбор подходов к управлению контекстом для LLM выявил ключевые различия между классическим векторным RAG, графовыми структурами и подачей сырых данных. Выбор метода напрямую влияет на точность ответов при работе со сложными связями в данных, объемы потребляемых токенов и общую производительность агентных систем в задачах поиска и анализа информации. Hacker News · Память и RAG Проактивное извлечение памяти для ИИ-агентов вместо статической суммаризации Исследователи представили новый подход к управлению контекстом в ИИ-агентах, который отходит от традиционной статической суммаризации в пользу проактивного извлечения памяти. Метод позволяет агентам динамически формировать релевантные воспоминания на основе текущих задач, значительно повышая точность ответов при работе с длинными историями взаимодействий и сложными многошаговыми процессами, требующими удержания контекста. Hacker News · Память и RAG Решение проблемы ограниченной контекстной памяти в AI-редакторах Разработчики столкнулись с тем, что популярные AI-редакторы кода, такие как Cursor, теряют контекст длительных сессий, забывая детали обсуждений спустя короткое время. Для решения этой проблемы была создана внешняя система управления памятью, которая индексирует историю диалогов и техническую документацию, обеспечивая модели доступ к релевантным данным на протяжении всего процесса разработки.

← Все материалы