Hacker News · 18.06.2026 ·Модели и релизы

SubQ: новая архитектура LLM для работы с длинным контекстом

Разработчики представили SubQ — специализированную языковую модель, архитектура которой оптимизирована для обработки многомиллионных контекстных окон. В отличие от стандартных моделей, использующих квадратичную зависимость вычислительных затрат от длины входных данных, SubQ применяет сублинейные методы вычислений. Это позволяет значительно снизить потребление памяти и ускорить логические операции при анализе сверхдлинных документов, баз кода или массивов данных.

Технология ориентирована на задачи, требующие глубокого анализа контекста, который выходит за рамки возможностей большинства современных LLM. Архитектурные изменения позволяют модели удерживать внимание на всей последовательности токенов без критического замедления инференса. Такой подход решает проблему «забывания» информации в длинных текстах и повышает точность ответов при работе с большими объемами исходных материалов.

Решение направлено на устранение ограничений, связанных с масштабированием контекстного окна в текущих генеративных системах. Оптимизация вычислительных ресурсов при работе с миллионами токенов открывает новые возможности для автоматизации анализа технической документации, юридических архивов и сложных исследовательских отчетов, где критически важна целостность восприятия всей структуры данных.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука Анализ избыточности: сколько раз LLM перечитывают один и тот же текст Исследование процесса обработки контекста в больших языковых моделях выявило значительные потери вычислительных ресурсов из-за многократного повторного чтения одних и тех же фрагментов текста. Автор эксперимента замерил количество обращений к токенам при выполнении стандартных задач и обнаружил, что текущие архитектуры тратят избыточное время на переобработку уже известных данных, что напрямую влияет на задержки и стоимость инференса. Hacker News · Модели и релизы SubQ 1.1: линейное масштабирование внимания с 98% точностью Исследователи представили обновлённую версию SubQ 1.1, модели, использующей линейно-масштабируемое разреженное внимание. Новый алгоритм обеспечивает 98% точность извлечения данных при работе с 12 миллионами токенов. arXiv · Исследования и наука Метод ReContext повышает точность работы LLM с длинными контекстами Исследователи представили метод ReContext, решающий проблему неэффективного использования длинных контекстов в LLM. Несмотря на увеличение объема входных данных, модели часто игнорируют важные фрагменты информации. Новый подход использует рекурсивное воспроизведение доказательств (Recursive Evidence Replay), что позволяет моделям лучше извлекать и связывать разрозненные данные, значительно повышая качество логических выводов в задачах с большими массивами текста. Hacker News · Инфраструктура для агентов Субмодулярный отбор контекста для оптимизации работы LLM-агентов Исследователи представили метод субмодулярного отбора контекста, который позволяет динамически выбирать наиболее релевантную информацию для LLM-агентов. Этот подход выступает в роли подключаемого модуля, оптимизирующего подачу данных в контекстное окно. Технология позволяет агентам эффективнее обрабатывать длинные последовательности, снижая количество избыточных токенов и повышая точность ответов при работе со сложными задачами. Hacker News · Инфраструктура для агентов Velocity: метод линейного масштабирования контекста для существующих LLM без дообучения Исследователи представили Velocity — метод, позволяющий значительно расширить контекстное окно существующих больших языковых моделей без необходимости их дообучения. Технология обеспечивает линейное масштабирование вычислительных затрат при увеличении длины входных данных, что решает проблему квадратичной сложности стандартного механизма внимания (Attention) и открывает путь к эффективной обработке длинных документов на стандартном оборудовании. Hacker News · Инфраструктура для агентов Почему стоит разделять поиск и интерпретацию данных в LLM-приложениях Разработчикам рекомендуется разделять процессы извлечения данных (retrieval) и их интерпретации при работе с LLM. Попытка совместить поиск контекста и генерацию ответа в одном вызове модели часто приводит к снижению точности, галлюцинациям и избыточным затратам токенов. Оптимальный подход предполагает использование специализированных инструментов для поиска и последующую передачу структурированных данных для анализа. Hacker News · Память и RAG Почему бесконечное контекстное окно — не панацея для работы с данными Разработчики всё чаще отказываются от идеи бесконечного расширения контекстного окна LLM в пользу архитектур с внешним управлением памятью. Вместо того чтобы загружать огромные массивы данных напрямую в модель, эффективнее использовать специализированные системы поиска и извлечения информации. Это позволяет снизить затраты на инференс, повысить точность ответов и избежать проблем с «забыванием» данных при длинных контекстах. Hacker News · Исследования и наука Исследование Lost in Context: как бороться с потерей информации в длинных контекстах LLM Исследователи представили работу «Lost in Context», посвященную проблеме «тревожности контекста» в больших языковых моделях. Авторы анализируют, почему при увеличении объема входных данных модели начинают игнорировать важную информацию, и предлагают методы повышения точности извлечения данных из длинных промптов. Работа фокусируется на оптимизации внимания моделей для предотвращения деградации ответов при работе с большими массивами текста. Hacker News · Инференс и железо Релиз ThinkingCap-Qwen3.6-27B: оптимизация процесса рассуждения LLM Разработчики представили ThinkingCap-Qwen3.6-27B — специализированную версию модели Qwen3.6, оптимизированную для сокращения затрат на генерацию «мыслительных» токенов. Модель сохраняет функциональность базовой архитектуры, но требует на 50% меньше вычислительных ресурсов для этапа рассуждения, что значительно повышает скорость работы и снижает стоимость инференса при сохранении высокого качества логических выводов. Hacker News · Данные и инжиниринг Почему LLM не должны заменять базы данных Современные архитектуры ИИ-приложений все чаще сталкиваются с проблемой неэффективного использования больших языковых моделей. Разработчики нередко пытаются делегировать LLM функции хранения и извлечения структурированных данных, что приводит к неоправданным расходам на инференс и снижению точности ответов. Использование модели в качестве хранилища знаний противоречит принципам работы нейросетей, которые оптимизированы для рассуждений и обработки естественного языка, а не для обеспечения целостности и актуальности данных.

← Все материалы