arXiv · 16.06.2026 ·Машинное обучение

Новый подход к обработке паддинга в языковых моделях

Исследователи предложили новый метод VoidPadding для языковых моделей, основанных на диффузии (MDLMs). В текущих моделях токен [EOS] выполняет двойную роль: он и завершает смысл, и используется для паддинга. Это усложняет обучение и снижает качество генерации текста.

VoidPadding разделяет эти функции, передавая задачу паддинга специальному токену [VOID]. Это позволяет [EOS] сосредоточиться только на семантическом завершении текста. Исследование показывает, что такой подход улучшает качество генерации и упрощает обучение моделей.

Авторы отмечают, что их метод особенно полезен для моделей, работающих с фиксированной длиной вывода. Это может стать стандартом в обучении языковых моделей, так как упрощает архитектуру и повышает эффективность.

Статья опубликована на arXiv и доступна для скачивания. Исследователи планируют дальнейшие эксперименты для оценки влияния VoidPadding на различные типы языковых моделей.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый метод обучения Masked Diffusion Language Models через Mask-Aware Policy Gradients Исследователи представили метод Mask-Aware Policy Gradients, решающий проблему неэффективности обучения диффузионных языковых моделей (MDLM) с подкреплением. Новый подход учитывает порядок снятия масок при генерации токенов, что позволяет точнее оценивать логарифмическое правдоподобие и улучшать качество рассуждений моделей, преодолевая ограничения существующих методов, игнорирующих последовательность процесса демаскирования. arXiv · Машинное обучение Новый метод обучения dLLMs через самодистилляцию Исследователи предложили новый подход к обучению диффузионных языковых моделей (dLLMs) — on-policy self-distillation (OPSD). Этот метод уже показал свою эффективность для обычных языковых моделей, но его применение к dLLMs оставалось неизученным. Hacker News · Исследования и наука Новый метод Dispersion Loss для борьбы с конденсацией эмбеддингов в малых LLM Исследователи предложили метод Dispersion Loss, решающий проблему «конденсации» эмбеддингов в малых языковых моделях. При обучении компактных моделей векторы слов часто схлопываются в узкие кластеры, что снижает качество генерации. Новый подход принудительно разносит эмбеддинги в пространстве, повышая выразительность модели без увеличения количества параметров, что критически важно для эффективного обучения легковесных архитектур. arXiv · Машинное обучение Adaptive Block Diffusion решает проблему несовпадения обучения и инференса в DLM Исследователи представили метод Adaptive Block Diffusion (ABD), направленный на устранение разрыва между обучением и инференсом в диффузионных языковых моделях (DLM). Традиционные модели ограничены фиксированными контекстными структурами, что приводит к деградации качества при работе с произвольными конфигурациями. Новый подход оптимизирует процесс шумоподавления, позволяя моделям эффективно адаптироваться к различным длинам последовательностей и структурам данных вне обучающей сетки. arXiv · Машинное обучение On-Policy Delta Distillation: новый метод обучения моделей с подкреплением Исследователи представили метод On-Policy Delta Distillation, направленный на оптимизацию процесса пост-тренировки языковых моделей. Новый подход позволяет использовать токенизированный надзор от «учителя» для обучения «ученика», обходя ограничения традиционных моделей вознаграждения. Техника повышает эффективность обучения с подкреплением, обеспечивая более точную передачу знаний между моделями при сохранении стабильности процесса. arXiv · Машинное обучение Оптимизация инференса LLM через адаптивную глубину декодирования Исследователи представили метод Depth Exploration, оптимизирующий процесс генерации токенов в авторегрессионных моделях. Вместо прогона каждого токена через все слои нейросети, система динамически определяет глубину вычислений, необходимую для уверенного предсказания. Это позволяет существенно сократить вычислительные затраты при сохранении точности, так как многие токены становятся предсказуемыми на промежуточных этапах обработки данных внутри архитектуры модели. arXiv · Исследования и наука Новый подход к формальному доказательству теорем с помощью диффузионных моделей Исследователи представили метод Diffusion-Proof, направленный на преодоление ограничений стандартных авторегрессионных языковых моделей в задачах формальной математики. Традиционные модели, предсказывающие следующий токен, часто сталкиваются с трудностями при построении длинных логических цепочек, необходимых для верификации сложных математических доказательств. Новый подход переносит принципы диффузионных процессов в область формального вывода, позволяя моделям более эффективно исследовать пространство возможных доказательств. arXiv · Машинное обучение Posterior Refinement: новый метод ускорения генерации текста в неавторегрессионных моделях Исследователи представили метод Posterior Refinement, решающий проблему низкой эффективности неавторегрессионных языковых моделей. Новый подход использует Any-Order Flow Maps для итеративного уточнения текста, позволяя моделям критиковать и перегенерировать произвольные фрагменты токенов одновременно. Это устраняет ошибки факторизации, характерные для маскированных диффузионных моделей, и значительно повышает качество генерации при сохранении высокой скорости работы. Hacker News · Машинное обучение Диффузионные модели для параллельной генерации текста Исследователи представили новый подход к архитектуре больших языковых моделей, основанный на принципах диффузии. В отличие от стандартных LLM, которые предсказывают следующий токен последовательно, новая методика позволяет генерировать множество токенов одновременно. Это радикально меняет процесс формирования текста, превращая его из пошагового авторегрессионного процесса в параллельный. arXiv · Машинное обучение Новый метод декодирования для борьбы с повторами в LLM Исследователи представили метод Variance-Calibrated Modulation (VCM), направленный на устранение проблемы «ловушки правдоподобия» при генерации текста большими языковыми моделями. Традиционные подходы к декодированию, такие как Top-p или Min-p, часто приводят к монотонности и избыточным повторам, так как модели склонны чрезмерно полагаться на наиболее вероятные токены, игнорируя разнообразие лексики, характерное для человеческой речи.

← Все материалы