Исследователи представили BamiBERT — новую предобученную модель на архитектуре BERT, оптимизированную для работы с вьетнамским языком. Разработка призвана устранить ограничения существующего стандарта PhoBERT. Модель обучена на корпусе объемом 129 ГБ и поддерживает контекстное окно до 2048 токенов, что значительно расширяет возможности обработки длинных текстов по сравнению с предыдущими решениями для данного языка.

Ключевым преимуществом BamiBERT является способность работать с «сырыми» входными данными напрямую. Это исключает необходимость в предварительной токенизации, которая часто становится узким местом при обработке вьетнамского языка из-за его специфической морфологии. Модель прошла полный цикл обучения с нуля, что позволило добиться более качественного представления семантических связей в текстах общего домена.

Внедрение BamiBERT упрощает пайплайны обработки естественного языка для вьетнамского сегмента, снижая вычислительные затраты на предобработку данных. Увеличенная длина контекста позволяет модели эффективнее справляться с задачами классификации, извлечения сущностей и анализа документов, где требуется понимание широкого контекста, недоступного для классических BERT-моделей с ограничением в 512 токенов.

Ключевые факты

  • Объем обучающего корпуса составил 129 ГБ текстовых данных общего домена.
  • Максимальная длина контекстного окна увеличена до 2048 токенов.
  • Модель обучена с нуля в течение 20 полных эпох.
  • Архитектура устраняет необходимость в сложной предварительной токенизации входных данных.