Hacker News · 26.06.2026 ·Инфраструктура для агентов

Почему бесконечный контекст — не лучшее решение для ИИ-агентов в программировании

Увеличение контекстного окна LLM не решает проблему эффективности ИИ-агентов при работе с крупными кодовыми базами. Вместо загрузки миллионов токенов в память, авторы предлагают сфокусироваться на архитектуре с активным поиском и структурированным доступом к данным. Такой подход позволяет агентам точнее находить нужные фрагменты кода, снижая затраты на инференс и повышая качество генерации.

Основная проблема «бесконечного» контекста заключается в деградации внимания модели при росте объема данных. Даже при наличии окна в миллион токенов, модель часто теряет фокус на критически важных деталях реализации. Кроме того, обработка огромных объемов текста при каждом запросе приводит к избыточным расходам на токены и увеличению времени ожидания ответа, что критично для инструментов автодополнения и рефакторинга.

Вместо попыток «запихнуть всё в модель», предлагается использовать паттерны RAG и агентные инструменты для навигации по графу зависимостей проекта. Агент должен самостоятельно решать, какой файл или модуль ему необходим в текущий момент, запрашивая только релевантные контекстные данные. Это превращает процесс разработки из пассивного чтения контекста в активный поиск информации, что лучше имитирует работу инженера-человека.

Ключевые факты

Увеличение контекстного окна до 1M+ токенов не гарантирует точность извлечения информации из больших репозиториев.
Избыточный контекст увеличивает стоимость каждого запроса и задержку (latency) при работе агента.
Архитектуры с активным поиском (agentic retrieval) показывают более высокую эффективность в задачах навигации по коду.
Переход от «контекста как хранилища» к «контексту как инструменту» снижает вычислительную нагрузку на LLM.
Структурированный доступ к кодовой базе через графы зависимостей позволяет агентам точнее понимать контекст изменений.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

← Все материалы