Исследователи представили CANDLE — легковесную систему для автоматической очистки арабских текстов от избыточных повторов символов. В отличие от традиционных подходов, модель не требует использования морфологических анализаторов, словарей или сложных правил. Система эффективно различает намеренное удлинение символов в неформальном общении и корректное написание слов, что критически важно для предобработки данных в NLP-задачах.

Проблема дублирования символов в арабском языке часто усложняет работу моделей машинного обучения, так как стандартные методы нормализации могут искажать смысл слов. CANDLE использует легковесный энкодер, который обучается распознавать контекстуальные закономерности в написании. Это позволяет системе работать значительно быстрее и с меньшими вычислительными затратами по сравнению с тяжелыми языковыми моделями, сохраняя высокую точность обработки «зашумленных» данных из социальных сетей.

Метод ориентирован на интеграцию в пайплайны подготовки данных для обучения LLM и других NLP-архитектур. Отказ от жестких правил позволяет системе адаптироваться к различным диалектам и стилям письма, что делает её универсальным инструментом для работы с арабским сегментом интернета, где неформальная лексика и специфические способы выражения эмоций через растягивание букв встречаются повсеместно.

Ключевые факты

  • CANDLE работает на уровне символов, исключая необходимость в словарях и морфологических базах.
  • Система успешно отделяет стилистическое удлинение букв от грамматически верных повторов.
  • Архитектура модели оптимизирована для минимального потребления ресурсов при высокой скорости обработки.
  • Метод предназначен для автоматизации очистки данных, поступающих из социальных медиа и пользовательского контента.