arXiv · 02.07.2026 ·Исследования и наука

Использование рассуждающих LLM для идентификации спикеров в видеоконтенте

Исследователи представили новый подход к идентификации персонажей в длинных видеоформатах, таких как телесериалы, с помощью LLM с навыками логического рассуждения. Метод позволяет точнее связывать реплики с конкретными героями, учитывая контекст сюжета. Для оценки эффективности системы был создан масштабный датасет DramaSR-532K, включающий более полумиллиона размеченных фрагментов, что значительно превосходит существующие аналоги в области анализа видео.

Задача идентификации спикера в драматических произведениях осложняется динамичной сменой сцен, фоновыми шумами и сложными диалогами. Традиционные модели компьютерного зрения часто ошибаются, когда персонажи находятся вне кадра или их внешность меняется. Использование LLM позволяет системе анализировать не только визуальный ряд, но и семантическое содержание речи, сопоставляя стиль общения и контекстуальные подсказки с историей персонажа.

Внедрение подобных моделей открывает новые возможности для автоматизированной индексации видеоархивов, создания интерактивных субтитров и глубокой аналитики контента. Использование логического вывода в LLM помогает системе «понимать» структуру повествования, что делает идентификацию спикеров устойчивой к сложным монтажным склейкам и многоголосым сценам, где классические алгоритмы распознавания лиц или голоса показывают низкую точность.

Ключевые факты

Представлен новый бенчмарк DramaSR-532K, содержащий 532 000 размеченных реплик из телесериалов.
Метод использует LLM с навыками рассуждения для связывания аудио-визуальных данных с контекстом сюжета.
Система демонстрирует повышенную точность атрибуции реплик в условиях, когда персонажи не находятся в кадре или скрыты.
Исследование направлено на решение проблемы понимания длинных видеоформ, где важна последовательность действий и диалогов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы