arXiv · 28.06.2026 ·Машинное обучение

Adaptive Block Diffusion решает проблему несовпадения обучения и инференса в DLM

Исследователи представили метод Adaptive Block Diffusion (ABD), направленный на устранение разрыва между обучением и инференсом в диффузионных языковых моделях (DLM). Традиционные модели ограничены фиксированными контекстными структурами, что приводит к деградации качества при работе с произвольными конфигурациями. Новый подход оптимизирует процесс шумоподавления, позволяя моделям эффективно адаптироваться к различным длинам последовательностей и структурам данных вне обучающей сетки.

Диффузионные языковые модели обучаются на строго заданных подмножествах токенов, что создает жесткие рамки для их применения. При попытке использования таких моделей в реальных задачах, где контекст может варьироваться, возникает значительное падение производительности из-за несовпадения условий генерации. Метод ABD пересматривает механизм шумоподавления, делая его динамическим и независимым от фиксированной сетки, на которой модель была изначально обучена.

Внедрение адаптивных блоков позволяет моделям сохранять высокую точность генерации при изменении конфигурации контекста. Это открывает возможности для более гибкого использования диффузионных архитектур в задачах, требующих обработки текстов переменной длины, где ранее требовалась переобучение или сложные методы аппроксимации. Технология обеспечивает стабильность работы DLM в условиях, выходящих за пределы стандартных обучающих сценариев.

Ключевые факты

Метод Adaptive Block Diffusion (ABD) устраняет проблему несовпадения (mismatch) между этапами обучения и инференса в диффузионных языковых моделях.
Традиционные DLM ограничены фиксированными контекстными структурами, что вызывает деградацию качества при отклонении от обучающей сетки.
ABD оптимизирует процесс шумоподавления, обеспечивая корректную работу модели с произвольными конфигурациями токенов.
Исследование направлено на повышение гибкости и масштабируемости диффузионных архитектур в задачах генерации текста.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Multi-Block Diffusion: новый подход к параллельной генерации текста Исследователи представили архитектуру Multi-Block Diffusion (MultiBD), расширяющую возможности диффузионных языковых моделей. В отличие от традиционных подходов, MultiBD позволяет параллельно декодировать последовательные блоки текста, что значительно ускоряет процесс генерации. Метод решает проблему ограничений Single-Block моделей, внедряя эффективную работу с KV-кэшем и обеспечивая гибкость при создании контента переменной длины. Together.ai · Машинное обучение Новый метод ускоряет диффузионные языковые модели в 14 раз Исследователи из Together AI представили Consistency Diffusion Language Models (CDLM) — метод, который ускоряет работу диффузионных языковых моделей в 14,5 раза без потери качества. arXiv · Машинное обучение Оптимизация инференса LLM через адаптивную глубину декодирования Исследователи представили метод Depth Exploration, оптимизирующий процесс генерации токенов в авторегрессионных моделях. Вместо прогона каждого токена через все слои нейросети, система динамически определяет глубину вычислений, необходимую для уверенного предсказания. Это позволяет существенно сократить вычислительные затраты при сохранении точности, так как многие токены становятся предсказуемыми на промежуточных этапах обработки данных внутри архитектуры модели. arXiv · Оценка и бенчмарки Проблема «иллюзии оценки» в диффузионных языковых моделях Исследователи выявили критическую нестабильность в методах оценки диффузионных языковых моделей (dLLM). Несмотря на потенциал параллельного декодирования, эти модели требуют множества шагов шумоподавления, а текущие подходы к их тестированию часто дают противоречивые результаты. Это создает риск предвзятых выводов при сравнении эффективности различных стратегий генерации и оптимизации скорости работы моделей. arXiv · Машинное обучение Повышение устойчивости диффузионных моделей к зашумленным данным Исследователи предложили новый метод обучения диффузионных моделей, который делает их более устойчивыми к загрязненным обучающим выборкам. Традиционный подход, основанный на минимизации среднеквадратичной ошибки (MSE), часто оказывается чувствительным к выбросам и некачественным данным, что снижает итоговое качество генерации контента. arXiv · Машинное обучение Новый метод обучения dLLMs через самодистилляцию Исследователи предложили новый подход к обучению диффузионных языковых моделей (dLLMs) — on-policy self-distillation (OPSD). Этот метод уже показал свою эффективность для обычных языковых моделей, но его применение к dLLMs оставалось неизученным. arXiv · Исследования и наука Новый подход к формальному доказательству теорем с помощью диффузионных моделей Исследователи представили метод Diffusion-Proof, направленный на преодоление ограничений стандартных авторегрессионных языковых моделей в задачах формальной математики. Традиционные модели, предсказывающие следующий токен, часто сталкиваются с трудностями при построении длинных логических цепочек, необходимых для верификации сложных математических доказательств. Новый подход переносит принципы диффузионных процессов в область формального вывода, позволяя моделям более эффективно исследовать пространство возможных доказательств. arXiv · Машинное обучение Posterior Refinement: новый метод ускорения генерации текста в неавторегрессионных моделях Исследователи представили метод Posterior Refinement, решающий проблему низкой эффективности неавторегрессионных языковых моделей. Новый подход использует Any-Order Flow Maps для итеративного уточнения текста, позволяя моделям критиковать и перегенерировать произвольные фрагменты токенов одновременно. Это устраняет ошибки факторизации, характерные для маскированных диффузионных моделей, и значительно повышает качество генерации при сохранении высокой скорости работы. arXiv · Исследования и наука Адаптивное воображение для переноса обучения в визуальном RL Исследователи представили метод Domain Adaptation with Adaptive Imagination (DAAI), решающий проблему переноса моделей обучения с подкреплением (RL) из симуляции в реальный мир. Новый подход позволяет агентам адаптироваться к визуальным различиям сред при ограниченном объеме реальных данных, минимизируя разрыв в распределении состояний, который критически затрудняет работу систем компьютерного зрения в робототехнике. arXiv · Исследования и наука Новая архитектура для ускорения генеративного улучшения речи Исследователи представили архитектуру для улучшения качества речи, основанную на методе Flow Matching. В отличие от традиционных U-Net моделей, новый подход исключает пропускные соединения (skip-connections) и использует выравнивание латентных представлений. Это позволяет значительно сократить количество итераций при генерации, обеспечивая высокую скорость обработки, необходимую для работы систем в режиме реального времени.

← Все материалы