Together.ai · 25.03.2026 ·Оркестрация агентов

Как слабые модели справляются с длинным контекстом

Как слабые модели справляются с длинным контекстом

Исследователи из Together AI предложили новый подход к обработке длинных текстов с помощью небольших языковых моделей. Они разработали фреймворк «Divide & Conquer», который разбивает длинные документы на параллельные части и обрабатывает их с помощью нескольких моделей.

В основе метода лежит три компонента: планировщик, рабочие и менеджер. Планировщик разбивает текст на части, рабочие обрабатывают их параллельно, а менеджер объединяет результаты. Такой подход позволяет моделям Llama-3-70B и Qwen-72B превосходить GPT-4o в задачах с длинным контекстом.

Авторы отмечают, что традиционные подходы к обработке длинных текстов часто приводят к ухудшению качества. Новый метод позволяет избежать этого, используя параллельную обработку и распределение задач между несколькими моделями.

Исследование показывает, что даже небольшие модели могут эффективно справляться с длинными текстами, если использовать правильную стратегию обработки. Это открывает новые возможности для применения языковых моделей в задачах, требующих анализа больших объёмов текста.

Источник: Together.ai

Обсудить с ИИ

Похожие материалы

Hacker News · Модели и релизы Как мелкие модели могут конкурировать с крупными Исследователи из DeepClause предложили метод, позволяющий мелким языковым моделям демонстрировать производительность, сопоставимую с крупными аналогами. В статье на Substack они объясняют, что ключевым фактором является не количество параметров, а эффективность архитектуры и стратегии обучения. Hacker News · Машинное обучение Диффузионные модели для параллельной генерации текста Исследователи представили новый подход к архитектуре больших языковых моделей, основанный на принципах диффузии. В отличие от стандартных LLM, которые предсказывают следующий токен последовательно, новая методика позволяет генерировать множество токенов одновременно. Это радикально меняет процесс формирования текста, превращая его из пошагового авторегрессионного процесса в параллельный. arXiv · Исследования и наука Малые языковые модели догнали гигантов в задачах извлечения отношений Исследователи проанализировали возможности компактных языковых моделей (SLM) в задачах извлечения отношений (Relation Extraction) из текстов. В фокусе внимания оказались модели с количеством параметров от 360 миллионов до 3 миллиардов. Результаты показывают, что такие системы способны демонстрировать производительность, сопоставимую с крупными моделями (LLM) уровня frontier, работая при этом в режиме zero-shot. Hacker News · Модели и релизы GLM-5.2: новая модель для сложных задач Компания Zhipu AI представила модель GLM-5.2, оптимизированную для выполнения сложных задач, требующих длительного контекста. Новая версия поддерживает до 128K токенов, что позволяет обрабатывать большие объёмы текста и выполнять задачи, требующие глубокого анализа. arXiv · Обучение и дообучение Randomized YaRN: новый метод улучшения работы LLM с длинными контекстами Исследователи представили метод Randomized YaRN, направленный на решение проблемы ограниченной длины контекста в больших языковых моделях. Большинство современных LLM проходят предварительное обучение на относительно коротких последовательностях, а затем адаптируются для работы с длинными текстами. Однако даже после дообучения такие модели часто демонстрируют снижение качества при обработке данных, значительно превышающих длину, использованную в процессе адаптации. arXiv · Исследования и наука Оптимизация гибридных моделей внимания для работы с длинным контекстом Исследователи представили новый метод оптимизации гибридных моделей внимания, повышающий эффективность обработки длинных контекстов. Вместо использования эвристических подходов для выбора слоев, авторы предложили алгоритмический способ определения того, какие слои должны сохранять полное внимание, а какие — заменяться на линейное. Это позволяет значительно снизить вычислительные затраты при сохранении высокой точности работы трансформеров. Hacker News · Исследования и наука Исследование Lost in Context: как бороться с потерей информации в длинных контекстах LLM Исследователи представили работу «Lost in Context», посвященную проблеме «тревожности контекста» в больших языковых моделях. Авторы анализируют, почему при увеличении объема входных данных модели начинают игнорировать важную информацию, и предлагают методы повышения точности извлечения данных из длинных промптов. Работа фокусируется на оптимизации внимания моделей для предотвращения деградации ответов при работе с большими массивами текста. Hacker News · Инференс и железо Ускорение LLM через разреженное внимание и конечные автоматы Исследователи представили новый метод ускорения работы больших языковых моделей, основанный на использовании разреженного внимания (Sparse Attention) в сочетании с архитектурой конечных автоматов с постоянным состоянием. Этот подход позволяет значительно сократить вычислительные затраты при инференсе, сохраняя при этом точность генерации текста, что критически важно для развертывания тяжелых моделей на ограниченных аппаратных ресурсах. Hacker News · Обучение и дообучение Опыт обучения компактных высокопроизводительных моделей Максим Лабонн из Liquid AI представил подробный разбор процесса создания «малых» моделей (Small Language Models), которые по своим характеристикам приближаются к крупным языковым системам. В основе подхода лежит оптимизация архитектуры и качества данных, позволяющая достичь высокой эффективности при ограниченных вычислительных ресурсах. Основное внимание уделяется этапам подготовки датасетов, выбору стратегий токенизации и настройке гиперпараметров, которые критически влияют на итоговую производительность модели. Together.ai · Машинное обучение Новый метод ускоряет диффузионные языковые модели в 14 раз Исследователи из Together AI представили Consistency Diffusion Language Models (CDLM) — метод, который ускоряет работу диффузионных языковых моделей в 14,5 раза без потери качества.

← Все материалы