arXiv · 23.06.2026 ·Машинное обучение

CANDLE: новый метод очистки арабского текста от шума на уровне символов

Исследователи представили CANDLE — легковесную систему для автоматической очистки арабских текстов от избыточных повторов символов. В отличие от традиционных подходов, модель не требует использования морфологических анализаторов, словарей или сложных правил. Система эффективно различает намеренное удлинение символов в неформальном общении и корректное написание слов, что критически важно для предобработки данных в NLP-задачах.

Проблема дублирования символов в арабском языке часто усложняет работу моделей машинного обучения, так как стандартные методы нормализации могут искажать смысл слов. CANDLE использует легковесный энкодер, который обучается распознавать контекстуальные закономерности в написании. Это позволяет системе работать значительно быстрее и с меньшими вычислительными затратами по сравнению с тяжелыми языковыми моделями, сохраняя высокую точность обработки «зашумленных» данных из социальных сетей.

Метод ориентирован на интеграцию в пайплайны подготовки данных для обучения LLM и других NLP-архитектур. Отказ от жестких правил позволяет системе адаптироваться к различным диалектам и стилям письма, что делает её универсальным инструментом для работы с арабским сегментом интернета, где неформальная лексика и специфические способы выражения эмоций через растягивание букв встречаются повсеместно.

Ключевые факты

CANDLE работает на уровне символов, исключая необходимость в словарях и морфологических базах.
Система успешно отделяет стилистическое удлинение букв от грамматически верных повторов.
Архитектура модели оптимизирована для минимального потребления ресурсов при высокой скорости обработки.
Метод предназначен для автоматизации очистки данных, поступающих из социальных медиа и пользовательского контента.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый метод декодирования для борьбы с повторами в LLM Исследователи представили метод Variance-Calibrated Modulation (VCM), направленный на устранение проблемы «ловушки правдоподобия» при генерации текста большими языковыми моделями. Традиционные подходы к декодированию, такие как Top-p или Min-p, часто приводят к монотонности и избыточным повторам, так как модели склонны чрезмерно полагаться на наиболее вероятные токены, игнорируя разнообразие лексики, характерное для человеческой речи. arXiv · Машинное обучение Автоматизация дешифровки клинописи с помощью компьютерного зрения Исследователи представили новый пайплайн для автоматического распознавания клинописных знаков на глиняных табличках. Проект решает проблему нехватки данных в ассириологии: из полумиллиона найденных артефактов эксперты успели проанализировать лишь малую часть из-за сложности ручной расшифровки. Разработанный метод использует крупнейший на сегодняшний день размеченный датасет клинописных символов для обучения моделей компьютерного зрения. arXiv · Исследования и наука Как цифровизировать арабско-английский словарь Al-Mawrid Учёные представили методологию для систематической цифровизации и кодирования арабско-английского словаря Al-Mawrid. Исследование преобразует печатный ресурс в стандартизированный вычислительный словарь, заполняя пробел в арабской лексической инфраструктуре. Together.ai · Машинное обучение Новый метод ускоряет диффузионные языковые модели в 14 раз Исследователи из Together AI представили Consistency Diffusion Language Models (CDLM) — метод, который ускоряет работу диффузионных языковых моделей в 14,5 раза без потери качества. arXiv · Машинное обучение Итеративная самофильтрация данных для обучения мультимодальных моделей Качество обучающих выборок остается критическим фактором при создании эффективных мультимодальных нейросетей. В условиях работы с массивами данных гигантского объема ручная проверка становится невозможной, что приводит к накоплению значительного количества «шумных» и нерелевантных примеров. Традиционные методы очистки данных, основанные на эвристиках или использовании сторонних предобученных моделей, часто оказываются недостаточно гибкими или требуют больших вычислительных затрат. Hacker News · Инфраструктура для агентов Cachet: локальный семантический кэш для LLM-запросов Разработчики представили Cachet — инструмент для семантического кэширования запросов к языковым моделям, написанный на языке Rust. Решение позволяет сократить расходы на API и снизить задержки при работе с LLM за счет переиспользования ответов на похожие по смыслу вопросы. В отличие от стандартного кэширования по точному совпадению текста, система анализирует семантическую близость запросов, что делает её эффективной для динамических диалоговых интерфейсов. Hacker News · Инфраструктура для агентов Anti-slopping: метод для борьбы с шаблонными ответами ЛЛМ Исследователи из Thoughtworks представили метод Anti-slopping, направленный на устранение шаблонных и банальных ответов, которые часто генерируют языковые модели. Проблема «сопливых» (sloppy) ответов — это распространённая жалоба пользователей ИИ-агентов, особенно в контексте чат-ботов и виртуальных ассистентов. Anti-slopping предлагает алгоритмический подход для выявления и исправления таких шаблонных фраз, что может значительно повысить качество взаимодействия с ИИ-агентами. arXiv · Исследования и наука Новая архитектура для ускорения генеративного улучшения речи Исследователи представили архитектуру для улучшения качества речи, основанную на методе Flow Matching. В отличие от традиционных U-Net моделей, новый подход исключает пропускные соединения (skip-connections) и использует выравнивание латентных представлений. Это позволяет значительно сократить количество итераций при генерации, обеспечивая высокую скорость обработки, необходимую для работы систем в режиме реального времени. Hacker News · Данные и инжиниринг API для конвертации веб-страниц в Markdown для LLM Сервис Save представил API, предназначенный для автоматической очистки веб-контента и его преобразования в формат Markdown. Инструмент ориентирован на разработчиков, создающих системы с использованием больших языковых моделей, которым требуются структурированные данные из внешних источников. arXiv · Машинное обучение Posterior Refinement: новый метод ускорения генерации текста в неавторегрессионных моделях Исследователи представили метод Posterior Refinement, решающий проблему низкой эффективности неавторегрессионных языковых моделей. Новый подход использует Any-Order Flow Maps для итеративного уточнения текста, позволяя моделям критиковать и перегенерировать произвольные фрагменты токенов одновременно. Это устраняет ошибки факторизации, характерные для маскированных диффузионных моделей, и значительно повышает качество генерации при сохранении высокой скорости работы.

← Все материалы