arXiv · 02.07.2026 ·Модели и релизы

BamiBERT: новая языковая модель для вьетнамского языка с расширенным контекстом

Исследователи представили BamiBERT — новую предобученную модель на архитектуре BERT, оптимизированную для работы с вьетнамским языком. Разработка призвана устранить ограничения существующего стандарта PhoBERT. Модель обучена на корпусе объемом 129 ГБ и поддерживает контекстное окно до 2048 токенов, что значительно расширяет возможности обработки длинных текстов по сравнению с предыдущими решениями для данного языка.

Ключевым преимуществом BamiBERT является способность работать с «сырыми» входными данными напрямую. Это исключает необходимость в предварительной токенизации, которая часто становится узким местом при обработке вьетнамского языка из-за его специфической морфологии. Модель прошла полный цикл обучения с нуля, что позволило добиться более качественного представления семантических связей в текстах общего домена.

Внедрение BamiBERT упрощает пайплайны обработки естественного языка для вьетнамского сегмента, снижая вычислительные затраты на предобработку данных. Увеличенная длина контекста позволяет модели эффективнее справляться с задачами классификации, извлечения сущностей и анализа документов, где требуется понимание широкого контекста, недоступного для классических BERT-моделей с ограничением в 512 токенов.

Ключевые факты

Объем обучающего корпуса составил 129 ГБ текстовых данных общего домена.
Максимальная длина контекстного окна увеличена до 2048 токенов.
Модель обучена с нуля в течение 20 полных эпох.
Архитектура устраняет необходимость в сложной предварительной токенизации входных данных.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый подход к байесовскому обучению в контексте Исследователи представили метод Multi-Task Bayesian In-Context Learning, направленный на улучшение работы языковых моделей с неопределенностью и обобщением данных. Традиционные методы байесовского вывода часто сталкиваются с вычислительными сложностями или требуют жестких ограничений, которые снижают точность предсказаний. Новый подход предлагает более эффективную альтернативу, объединяя принципы байесовского вывода с возможностями обучения в контексте (in-context learning). arXiv · Машинное обучение ROMEVA: новый метод адаптации словарей для языков с низкой представленностью Исследователи представили метод ROMEVA (Roman Urdu Embedding-preserving Vocabulary Adaptation), направленный на улучшение работы мультиязычных моделей с языками, имеющими нестабильную морфологию и написание. В качестве примера авторы рассматривают романский урду — язык, где отсутствие единых стандартов орфографии приводит к избыточной фрагментации токенов. В стандартных моделях вроде mBERT это создает проблему, при которой один токен разбивается в среднем на 1,5 подслова, что снижает эффективность обработки текста. Together.ai · Оркестрация агентов Как слабые модели справляются с длинным контекстом Исследователи из Together AI предложили новый подход к обработке длинных текстов с помощью небольших языковых моделей. Они разработали фреймворк «Divide & Conquer», который разбивает длинные документы на параллельные части и обрабатывает их с помощью нескольких моделей. arXiv · Машинное обучение L3Cube-MahaPOS: новый датасет и BERT-модели для маратхи Исследователи представили L3Cube-MahaPOS — специализированный набор данных для морфологической разметки (POS-tagging) языка маратхи, на котором обучались новые модели семейства BERT. Проект направлен на устранение дефицита ресурсов для одного из самых распространенных языков мира, на котором говорят более 83 миллионов человек, что критически важно для развития машинного перевода и анализа синтаксиса. MarkTechPost · Инференс и железо Baidu представила Unlimited OCR: 3B-модель с фиксированным потреблением памяти Baidu выпустила Unlimited OCR — специализированную MoE-модель с 3 млрд параметров, предназначенную для обработки многостраничных документов. Главная особенность архитектуры заключается в использовании механизма Reference Sliding Window Attention (R-SWA), который поддерживает постоянный размер KV-кэша. Это позволяет модели сохранять стабильную скорость работы и потребление памяти независимо от объема входных данных, значительно превосходя существующие аналоги. Hacker News · ИИ в бизнесе Автоматическая классификация контента с помощью BERTopic и LLM Вики Бойкис представила практический подход к автоматизации тегирования контента, объединив возможности тематического моделирования BERTopic и больших языковых моделей. Метод позволяет эффективно структурировать архив публикаций, преобразуя неструктурированный текст в организованную систему тегов. Это решение демонстрирует, как комбинация классических NLP-инструментов и современных LLM помогает оптимизировать управление данными и улучшить навигацию по контенту. arXiv · Машинное обучение Новый метод дообучения моделей речи для специфичных задач Исследователи предложили новый подход к дообучению foundation-моделей речи, которые изначально обучаются на больших объёмах неразмеченных данных. Такие модели создают универсальные представления, полезные для разных задач, но при этом кодируют информацию о ключевых переменных речи распределённо. Это означает, что для конкретных задач требуется только часть этой информации. The Decoder · Модели и релизы VibeThinker-3B: компактная модель с навыками рассуждения уровня гигантов Разработчики из Sina Weibo представили VibeThinker-3B — языковую модель с 3 миллиардами параметров, демонстрирующую производительность в математике и программировании на уровне моделей, превосходящих её по размеру в сотни раз. Исследователи выдвинули гипотезу, что логические способности эффективно сжимаются в малые архитектуры, тогда как хранение обширных фактологических знаний требует значительного масштабирования параметров. MarkTechPost · Машинное обучение Liquid AI представила компактные модели для многоязычного поиска Компания Liquid AI выпустила новые модели LFM2.5-Embedding-350M и LFM2.5-ColBERT-350M, предназначенные для эффективного семантического поиска. Решения базируются на архитектуре с 350 миллионами параметров и оптимизированы для работы на периферийных устройствах, что позволяет использовать их локально без обращения к облачным серверам. Hacker News · Исследования и наука Ограничение памяти как способ улучшения обучения ИИ-моделей Исследователи из Института психолингвистики Макса Планка выяснили, что искусственное ограничение объема памяти ИИ-моделей до 3–7 элементов значительно повышает эффективность усвоения языка. Аналогия с кратковременной памятью человека помогает нейросетям лучше обобщать правила грамматики и структуры, предотвращая переобучение на избыточных данных и способствуя более качественному формированию лингвистических навыков в процессе обучения.

← Все материалы