Исследователи предложили новый метод VoidPadding для языковых моделей, основанных на диффузии (MDLMs). В текущих моделях токен [EOS] выполняет двойную роль: он и завершает смысл, и используется для паддинга. Это усложняет обучение и снижает качество генерации текста.
VoidPadding разделяет эти функции, передавая задачу паддинга специальному токену [VOID]. Это позволяет [EOS] сосредоточиться только на семантическом завершении текста. Исследование показывает, что такой подход улучшает качество генерации и упрощает обучение моделей.
Авторы отмечают, что их метод особенно полезен для моделей, работающих с фиксированной длиной вывода. Это может стать стандартом в обучении языковых моделей, так как упрощает архитектуру и повышает эффективность.
Статья опубликована на arXiv и доступна для скачивания. Исследователи планируют дальнейшие эксперименты для оценки влияния VoidPadding на различные типы языковых моделей.