Исследователи представили Diffusion-GR2 — новый метод для рекомендательных систем, использующий диффузионные языковые модели вместо авторегрессионных декодеров. Подход позволяет значительно ускорить процесс генеративного рассуждения при ранжировании кандидатов. За счет параллельного декодирования модель сокращает время вывода, сохраняя при этом высокую точность цепочки рассуждений (chain-of-thought), характерную для современных генеративных ранжировщиков.
Традиционные авторегрессионные модели при ранжировании тратят значительные вычислительные ресурсы на последовательную генерацию каждого токена рассуждений, что делает их медленными для систем реального времени. Метод блочной диффузии позволяет генерировать множество позиций одновременно, устраняя узкое место в виде последовательных проходов через модель. Это позволяет интегрировать сложные логические цепочки в рекомендательные пайплайны без существенных задержек.
Технология ориентирована на оптимизацию этапа переранжирования (re-ranking), где модель анализирует список кандидатов и обосновывает выбор каждого элемента. Переход на диффузионную архитектуру позволяет сократить длину цепочки рассуждений относительно итогового результата, делая процесс более эффективным с точки зрения использования вычислительных мощностей GPU.
Ключевые факты
- Метод Diffusion-GR2 заменяет стандартный авторегрессионный декодер на блочную диффузионную модель.
- Основная цель разработки — устранение задержек при генерации цепочек рассуждений (CoT) в рекомендательных системах.
- Параллельное декодирование позволяет обрабатывать множество позиций за один проход, в отличие от последовательного подхода.
- Решение направлено на повышение производительности систем, требующих глубокого логического обоснования выдачи рекомендаций.