arXiv · 30.06.2026 ·ИИ в бизнесе

GR2: новый подход к ранжированию в рекомендательных системах через LLM

Исследователи представили GR2 — специализированную модель для этапа финального переранжирования в рекомендательных системах. Решение устраняет разрыв между возможностями больших языковых моделей и требованиями индустриальных систем, обеспечивая высокую точность при обработке каруселей и сеток контента. Модель оптимизирует вовлеченность пользователей, эффективно обрабатывая сложные контекстные зависимости, которые часто упускаются традиционными алгоритмами ранжирования.

Современные рекомендательные системы обычно работают по многоступенчатой схеме: отбор кандидатов, предварительное ранжирование и финальный этап. Именно последний шаг определяет, какой контент увидит пользователь в первую очередь. Использование LLM на этом этапе часто затруднено из-за высокой задержки, сложности учета контекста и нехватки специализированных архитектур, способных работать в режиме реального времени с огромными объемами данных.

GR2 предлагает архитектурные улучшения, которые позволяют интегрировать мощь генеративных моделей в пайплайны рекомендаций без потери производительности. Авторы сфокусировались на специфике отображения контента в интерфейсах, где порядок элементов критически влияет на кликабельность. Это позволяет компаниям точнее настраивать выдачу под индивидуальные предпочтения, сохраняя при этом низкие показатели latency, необходимые для работы с миллиардами пользователей.

Ключевые факты

GR2 оптимизирует финальный этап переранжирования в многоступенчатых рекомендательных воронках.
Модель специально адаптирована для форматов отображения контента «карусель» и «сетка».
Решение устраняет три критических разрыва, препятствующих внедрению LLM в индустриальные системы рекомендаций.
Архитектура сфокусирована на повышении метрик вовлеченности пользователей и downstream-производительности систем.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Инфраструктура для агентов Масштабируемый инференс LLM на базе Ray Serve и vLLM Компания Anyscale представила обновленный подход к развертыванию больших языковых моделей в распределенных средах. Решение базируется на интеграции фреймворка Ray Serve с высокопроизводительным движком vLLM, что позволяет эффективно управлять нагрузкой при работе с LLM в кластерах Kubernetes, включая Google Kubernetes Engine (GKE). Hacker News · Оркестрация агентов Role-model: протокол для автоматического выбора оптимальной ИИ-модели Role-model представляет собой протокол, автоматизирующий выбор наиболее подходящей языковой модели для конкретной задачи. Система анализирует запрос и направляет его на исполнение в модель, которая обеспечивает лучший баланс между качеством ответа и стоимостью вычислений. Это позволяет разработчикам оптимизировать расходы и производительность агентных систем, динамически переключаясь между различными LLM в зависимости от сложности поставленной цели. arXiv · Исследования и наука Метод повышения точности рассуждений LLM при работе с неполными графами знаний Исследователи представили теоретическую модель для улучшения логических рассуждений больших языковых моделей (LLM) при работе с неполными графами знаний. Авторы предлагают математический аппарат для привязки траекторий рассуждений к фрагментарным данным, что позволяет моделям эффективнее интерпретировать контекст, когда доступная информация в графе ограничена или содержит пробелы, снижая вероятность галлюцинаций при извлечении фактов. Hacker News · Оценка и бенчмарки Использование LLM для оценки качества поисковой выдачи через метрику NDCG Для оценки качества поисковых систем теперь применяют LLM в качестве судей, автоматизирующих расчет метрики NDCG (Normalized Discounted Cumulative Gain). Этот подход позволяет заменить дорогостоящую ручную разметку релевантности документов, используя возможности больших языковых моделей для анализа соответствия результатов поискового запроса намерениям пользователя, что значительно ускоряет итерации при настройке алгоритмов поиска. Hacker News · Инфраструктура для агентов Автоматическая маршрутизация запросов для оптимизации стоимости и скорости LLM Компания Factory представила инструмент для автоматической маршрутизации запросов между различными языковыми моделями. Система в режиме реального времени анализирует входящие задачи и перенаправляет их на наиболее подходящую модель, исходя из заданных параметров стоимости и времени отклика. Такой подход позволяет компаниям снизить расходы на API, не жертвуя качеством ответов в критически важных сценариях. arXiv · Обучение и дообучение Масштабируемые законы дистилляции LLM для узкоспециализированных задач Исследователи вывели эмпирические законы масштабирования для дистилляции LLM, позволяющие прогнозировать качество сжатых моделей в зависимости от объема данных и коэффициента компрессии. Работа решает проблему высокой стоимости и задержек при развертывании крупных моделей, предлагая математически обоснованный подход к созданию компактных и эффективных версий нейросетей для специфических доменов без потери критических знаний. Hacker News · ИИ в бизнесе Практики эффективной разработки с использованием LLM Статья анализирует подходы к интеграции больших языковых моделей, таких как Claude и Codex, в повседневный рабочий процесс инженеров. Автор рассматривает методы промпт-инжиниринга и архитектурные паттерны, позволяющие повысить качество генерируемого кода, сократить количество ошибок и оптимизировать взаимодействие между человеком и ИИ-ассистентом при решении сложных задач проектирования ПО. Hacker News · Инфраструктура для агентов LLM-d: распределенный инференс больших языковых моделей Проект LLM-d предлагает архитектурное решение для распределенного запуска LLM, позволяя объединять вычислительные мощности нескольких узлов для инференса моделей, которые не помещаются в память одного GPU. Система использует механизм разделения весов модели между участниками сети, что снижает требования к локальному «железу» и позволяет запускать тяжелые архитектуры на потребительском оборудовании. Hacker News · Инференс и железо Kog Laneformer 2B: оптимизированная модель для низкозадержечного инференса Компания Kog представила Laneformer 2B — специализированную языковую модель, разработанную для минимизации задержек при выполнении задач в реальном времени. Модель оптимизирована для работы в составе собственного инференс-движка Kog, обеспечивая высокую скорость генерации токенов при сохранении компактного размера в 2 миллиарда параметров, что критически важно для высоконагруженных агентных систем. arXiv · Машинное обучение Оптимизация инференса LLM через адаптивную глубину декодирования Исследователи представили метод Depth Exploration, оптимизирующий процесс генерации токенов в авторегрессионных моделях. Вместо прогона каждого токена через все слои нейросети, система динамически определяет глубину вычислений, необходимую для уверенного предсказания. Это позволяет существенно сократить вычислительные затраты при сохранении точности, так как многие токены становятся предсказуемыми на промежуточных этапах обработки данных внутри архитектуры модели.

← Все материалы