arXiv · 24.06.2026 ·Машинное обучение

Tatoxa: новая система детоксикации текста для татарского языка

Исследователи представили Tatoxa — специализированную систему для автоматического обнаружения и нейтрализации токсичного контента в текстах на татарском языке. Разработка решает проблему нехватки инструментов обработки естественного языка для малоресурсных языков, обеспечивая высокую точность фильтрации вредоносных высказываний. Система демонстрирует эффективность, сопоставимую с современными аналогами для языков с большими объемами обучающих данных.

Проблема модерации контента в интернете часто игнорирует языки с ограниченным доступом к цифровым корпусам текстов. Авторы проекта Tatoxa применили методы адаптации моделей для работы с татарским языком, учитывая его морфологические особенности и специфику словообразования. Это позволяет эффективно выявлять агрессивную лексику, оскорбления и другой вредный контент, который ранее пропускался стандартными глобальными фильтрами.

В ходе сравнительных экспериментов система показала значительное преимущество перед существующими методами обработки, которые не были адаптированы под структуру татарского языка. Использование подобных специализированных решений критически важно для создания безопасной цифровой среды в регионах, где доминируют малоресурсные языки, и может стать базой для разработки аналогичных систем для других тюркских языков.

Ключевые факты

Tatoxa — специализированная система для детоксикации текста, разработанная для татарского языка.
Исследование направлено на устранение разрыва в качестве инструментов модерации между высокоресурсными и малоресурсными языками.
Система успешно проходит сравнительные тесты, показывая результаты на уровне современных SOTA-решений.
Методология включает адаптацию алгоритмов машинного обучения под морфологические особенности татарского языка.
Разработка способствует повышению безопасности онлайн-сообществ и защите пользователей в региональном сегменте интернета.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Анализ влияния текстовых инструкций на синтез речи в диффузионных моделях Исследователи представили метод интерпретации работы систем синтеза речи (TTS), управляемых текстовыми описаниями стиля. В современных моделях, использующих естественный язык для настройки характеристик голоса, долгое время оставалось неясным, какие именно слова в промпте определяют конкретные акустические параметры аудиовыхода. Понимание этой связи необходимо для диагностики ошибок генерации и повышения точности управления эмоциональной окраской речи. arXiv · Машинное обучение Новый датасет CATCH-ME для борьбы с ненавистью и дезинформацией в ИИ Исследователи представили датасет CATCH-ME (Contextually Annotated multi-Turn Counterspeech), предназначенный для улучшения навыков языковых моделей в противодействии враждебным высказываниям и дезинформации. Проблема текущих систем заключается в том, что при работе в режиме zero-shot модели часто выдают шаблонные, расплывчатые или повторяющиеся ответы, которые неэффективны в реальных диалогах. Новый набор данных сфокусирован на многоходовых контекстных ответах, что позволяет лучше обучать ИИ-агентов вести аргументированную дискуссию. Hacker News · ИИ в бизнесе Оцифровка культурного наследия: перевод и классификация текстов Сант Тукарама Исследователи представили проект по полной оцифровке и систематизации литературного наследия индийского поэта-святого XVII века Сант Тукарама. В базу данных вошли 4582 абханги — традиционные религиозные песнопения, написанные на маратхи. С помощью современных языковых моделей тексты были переведены на английский язык и снабжены тематическими тегами, что позволило структурировать массив данных, который ранее был труднодоступен для широкого круга исследователей. arXiv · Машинное обучение Таксономическое глубокое обучение для классификации морских видов Исследователи представили новый метод глубокого обучения для автоматической классификации морских видов по подводным изображениям. Подход учитывает таксономическую иерархию, что позволяет эффективно справляться с визуальным сходством близкородственных организмов и неравномерной детализацией данных, где часть образцов классифицируется только до уровня рода или семейства, а не конкретного вида. arXiv · Машинное обучение Датасет Urdu Katib для распознавания рукописного текста на урду Исследователи представили Urdu Katib — новый специализированный датасет для обучения систем распознавания рукописного текста (HTR) на языке урду. Работа направлена на преодоление дефицита данных для языков с курсивным начертанием, которые традиционно считаются сложными для автоматической обработки из-за особенностей соединения символов и высокой вариативности почерка. Hacker News · Инференс и железо Tokdiet: прокси для локального запуска LLM с экономией токенов Разработчики представили Tokdiet — прокси-сервер для локального запуска языковых моделей, который сокращает расход токенов на 70% без потери качества. Решение работает как промежуточный слой между пользователем и моделью, оптимизируя запросы и уменьшая объём передаваемых данных. arXiv · Машинное обучение FlowEdit: адаптация TTS-систем без переобучения моделей Исследователи представили метод FlowEdit, позволяющий корректировать произношение в системах синтеза речи (TTS) на базе flow-matching без необходимости дообучения весов модели. Современные генеративные системы синтеза показывают высокое качество в режиме zero-shot, однако они остаются статичными после развертывания. Это приводит к устойчивым ошибкам при озвучивании редких имен собственных или специфических терминов, отсутствующих в обучающей выборке. Hacker News · Оценка и бенчмарки TakoQA: фреймворк для стресс-тестирования приложений с помощью роя ИИ-агентов TakoQA — это новый инструмент с открытым исходным кодом, предназначенный для тестирования устойчивости программных систем через имитацию атак и сложных сценариев взаимодействия с помощью роя ИИ-агентов. Фреймворк позволяет автоматизировать проверку безопасности и надежности приложений, используя агентные системы для поиска уязвимостей и критических ошибок в логике работы сервисов. arXiv · Исследования и наука Использование LLM для детекции телефонного мошенничества в турецком языке Исследователи изучили возможности применения больших языковых моделей для выявления телефонного мошенничества в турецком языке. В условиях дефицита размеченных данных для низкоресурсных языков авторы работы проанализировали эффективность аудио-анализа и текстовой обработки, предложив методы адаптации современных ИИ-систем для защиты уязвимых групп населения от киберпреступлений, которые ранее оставались вне фокуса глобальных технологических решений. arXiv · Данные и инжиниринг Абстрагирование запросов в системах доступа к данным на основе онтологий Исследователи представили новый подход к абстрагированию запросов в системах доступа к данным на основе онтологий (OBDA). Метод позволяет переводить запросы к данным на уровень онтологии, что критически важно для интеграции разрозненных источников. Авторы решают проблему отсутствия «идеальной абстракции», предлагая концепции минимально достаточных и максимально точных приближений для семантики определенных ответов.

← Все материалы