arXiv · 21.06.2026 ·Машинное обучение

Двухэтапная модель распознавания и перевода жестового языка

Исследователи представили архитектуру глубокого обучения для автоматического распознавания жестового языка по видео и его последующего перевода на региональные языки Индии. Система решает проблему дефицита инструментов для слабослышащих людей, использующих редкие и малоресурсные языки, для которых стандартные решения на базе ИИ часто недоступны.

Процесс обработки данных разделен на два этапа. Сначала нейросеть классифицирует короткие видеофрагменты с жестами, преобразуя их в текстовые метки на английском языке. На втором этапе полученные данные проходят через модель машинного перевода, которая адаптирует текст для носителей индийских вернакулярных языков. Такой подход позволяет преодолеть барьер между визуальным языком жестов и письменной речью в регионах с ограниченным доступом к технологиям обработки естественного языка.

Разработка демонстрирует эффективность применения пайплайнов глубокого обучения для задач инклюзивности. Авторы подчеркивают, что использование двухэтапной архитектуры позволяет масштабировать систему на другие языковые группы, где объем размеченных данных для обучения end-to-end моделей остается критически низким. Исследование открывает возможности для создания доступных коммуникационных интерфейсов в регионах, где поддержка жестового языка в цифровых продуктах до сих пор была минимальной.

Источник: arXiv

Похожие материалы

Hacker News · Исследования и наука Технологический прорыв DeepSeek в архитектуре нейросетей Китайская исследовательская лаборатория DeepSeek представила архитектуру, которая существенно меняет подход к обучению и работе крупных языковых моделей. В основе решения лежит использование архитектуры Mixture-of-Experts (MoE) с глубокой оптимизацией процесса активации параметров. Вместо того чтобы задействовать всю нейросеть целиком для каждого запроса, система активирует лишь малую часть весов, что позволяет радикально снизить вычислительные затраты при сохранении высокой точности ответов. arXiv · Машинное обучение ROMEVA: новый метод адаптации словарей для языков с низкой представленностью Исследователи представили метод ROMEVA (Roman Urdu Embedding-preserving Vocabulary Adaptation), направленный на улучшение работы мультиязычных моделей с языками, имеющими нестабильную морфологию и написание. В качестве примера авторы рассматривают романский урду — язык, где отсутствие единых стандартов орфографии приводит к избыточной фрагментации токенов. В стандартных моделях вроде mBERT это создает проблему, при которой один токен разбивается в среднем на 1,5 подслова, что снижает эффективность обработки текста. Hacker News · ИИ в бизнесе Неинвазивный анализ крови с помощью глубокого обучения Исследователи представили новый метод определения показателей крови без необходимости забора биоматериала. Разработанный пайплайн на базе глубокого обучения анализирует данные, полученные неинвазивным путем, что позволяет автоматизировать процесс первичной диагностики и снизить нагрузку на лабораторные службы. Hacker News · Машинное обучение Почему стандартная метрика WER не подходит для языков Индии Разработчики систем распознавания речи (ASR) столкнулись с ограничением стандартной метрики Word Error Rate (WER) при работе с индийскими языками. Традиционный подход, основанный на подсчете ошибок в словах, не учитывает лингвистические особенности региона, где структура предложений, морфология и использование заимствований из английского языка создают специфические сложности для алгоритмов. arXiv · Исследования и наука Исследование взаимодействия речи и текста в латентном пространстве моделей Исследователи проанализировали работу моделей, обучаемых на чередующихся последовательностях речевых и текстовых токенов. Основная цель работы заключалась в том, чтобы понять, как именно различные модальности взаимодействуют внутри латентного пространства нейросети и как текстовые данные влияют на развитие навыков обработки аудио. arXiv · Модели и релизы Исследование: VLA-модели плохо работают с неанглийскими языками Недавнее исследование, опубликованное на arXiv, раскрывает значительный пробел в способности Vision-Language-Action (VLA) моделей работать с языками, отличными от английского. Эти модели, которые демонстрируют многообещающие возможности в обучении универсальных политик роботов на основе мультимодальных данных, в основном обучаются и оцениваются на английских инструкциях. Это оставляет их способность понимать и выполнять команды на других языках практически неизученной. Hacker News · Модели и релизы Релиз компактной модели для транскрибации китайского языка Разработчики представили специализированную модель для распознавания речи на китайском языке с параметрами 150 млн. Решение ориентировано на высокую скорость работы и оптимизировано для задач транскрибации в реальном времени. Ключевой особенностью системы является встроенная функция автоматического определения метаданных, что позволяет извлекать контекстную информацию непосредственно в процессе обработки аудиопотока. arXiv · Машинное обучение Автоматизация дешифровки клинописи с помощью компьютерного зрения Исследователи представили новый пайплайн для автоматического распознавания клинописных знаков на глиняных табличках. Проект решает проблему нехватки данных в ассириологии: из полумиллиона найденных артефактов эксперты успели проанализировать лишь малую часть из-за сложности ручной расшифровки. Разработанный метод использует крупнейший на сегодняшний день размеченный датасет клинописных символов для обучения моделей компьютерного зрения. arXiv · Машинное обучение Новый метод декодирования для борьбы с повторами в LLM Исследователи представили метод Variance-Calibrated Modulation (VCM), направленный на устранение проблемы «ловушки правдоподобия» при генерации текста большими языковыми моделями. Традиционные подходы к декодированию, такие как Top-p или Min-p, часто приводят к монотонности и избыточным повторам, так как модели склонны чрезмерно полагаться на наиболее вероятные токены, игнорируя разнообразие лексики, характерное для человеческой речи. arXiv · Машинное обучение Новый метод дообучения моделей речи для специфичных задач Исследователи предложили новый подход к дообучению foundation-моделей речи, которые изначально обучаются на больших объёмах неразмеченных данных. Такие модели создают универсальные представления, полезные для разных задач, но при этом кодируют информацию о ключевых переменных речи распределённо. Это означает, что для конкретных задач требуется только часть этой информации.

← Все материалы