Исследователи представили новый подход к идентификации персонажей в длинных видеоформатах, таких как телесериалы, с помощью LLM с навыками логического рассуждения. Метод позволяет точнее связывать реплики с конкретными героями, учитывая контекст сюжета. Для оценки эффективности системы был создан масштабный датасет DramaSR-532K, включающий более полумиллиона размеченных фрагментов, что значительно превосходит существующие аналоги в области анализа видео.
Задача идентификации спикера в драматических произведениях осложняется динамичной сменой сцен, фоновыми шумами и сложными диалогами. Традиционные модели компьютерного зрения часто ошибаются, когда персонажи находятся вне кадра или их внешность меняется. Использование LLM позволяет системе анализировать не только визуальный ряд, но и семантическое содержание речи, сопоставляя стиль общения и контекстуальные подсказки с историей персонажа.
Внедрение подобных моделей открывает новые возможности для автоматизированной индексации видеоархивов, создания интерактивных субтитров и глубокой аналитики контента. Использование логического вывода в LLM помогает системе «понимать» структуру повествования, что делает идентификацию спикеров устойчивой к сложным монтажным склейкам и многоголосым сценам, где классические алгоритмы распознавания лиц или голоса показывают низкую точность.
Ключевые факты
- Представлен новый бенчмарк DramaSR-532K, содержащий 532 000 размеченных реплик из телесериалов.
- Метод использует LLM с навыками рассуждения для связывания аудио-визуальных данных с контекстом сюжета.
- Система демонстрирует повышенную точность атрибуции реплик в условиях, когда персонажи не находятся в кадре или скрыты.
- Исследование направлено на решение проблемы понимания длинных видеоформ, где важна последовательность действий и диалогов.