Увеличение контекстного окна LLM не решает проблему эффективности ИИ-агентов при работе с крупными кодовыми базами. Вместо загрузки миллионов токенов в память, авторы предлагают сфокусироваться на архитектуре с активным поиском и структурированным доступом к данным. Такой подход позволяет агентам точнее находить нужные фрагменты кода, снижая затраты на инференс и повышая качество генерации.
Основная проблема «бесконечного» контекста заключается в деградации внимания модели при росте объема данных. Даже при наличии окна в миллион токенов, модель часто теряет фокус на критически важных деталях реализации. Кроме того, обработка огромных объемов текста при каждом запросе приводит к избыточным расходам на токены и увеличению времени ожидания ответа, что критично для инструментов автодополнения и рефакторинга.
Вместо попыток «запихнуть всё в модель», предлагается использовать паттерны RAG и агентные инструменты для навигации по графу зависимостей проекта. Агент должен самостоятельно решать, какой файл или модуль ему необходим в текущий момент, запрашивая только релевантные контекстные данные. Это превращает процесс разработки из пассивного чтения контекста в активный поиск информации, что лучше имитирует работу инженера-человека.
Ключевые факты
- Увеличение контекстного окна до 1M+ токенов не гарантирует точность извлечения информации из больших репозиториев.
- Избыточный контекст увеличивает стоимость каждого запроса и задержку (latency) при работе агента.
- Архитектуры с активным поиском (agentic retrieval) показывают более высокую эффективность в задачах навигации по коду.
- Переход от «контекста как хранилища» к «контексту как инструменту» снижает вычислительную нагрузку на LLM.
- Структурированный доступ к кодовой базе через графы зависимостей позволяет агентам точнее понимать контекст изменений.