Исследователи представили архитектуру глубокого обучения для автоматического распознавания жестового языка по видео и его последующего перевода на региональные языки Индии. Система решает проблему дефицита инструментов для слабослышащих людей, использующих редкие и малоресурсные языки, для которых стандартные решения на базе ИИ часто недоступны.
Процесс обработки данных разделен на два этапа. Сначала нейросеть классифицирует короткие видеофрагменты с жестами, преобразуя их в текстовые метки на английском языке. На втором этапе полученные данные проходят через модель машинного перевода, которая адаптирует текст для носителей индийских вернакулярных языков. Такой подход позволяет преодолеть барьер между визуальным языком жестов и письменной речью в регионах с ограниченным доступом к технологиям обработки естественного языка.
Разработка демонстрирует эффективность применения пайплайнов глубокого обучения для задач инклюзивности. Авторы подчеркивают, что использование двухэтапной архитектуры позволяет масштабировать систему на другие языковые группы, где объем размеченных данных для обучения end-to-end моделей остается критически низким. Исследование открывает возможности для создания доступных коммуникационных интерфейсов в регионах, где поддержка жестового языка в цифровых продуктах до сих пор была минимальной.