📺

Moment Retrieval with LLM

팀장

팀원

분야

Retrieval

발표자료

(video_retrieval)Conference_24_2.pptx

(video_retrieval)Conference_24_2.pdf

Github 링크

https://github.com/AIKU-Official/aiku-24-2-video_retrieval

2024년 2학기 AIKU 활동으로 진행한 프로젝트입니다

소개

숏폼 콘텐츠가 현재 핵심 트렌드로 자리 잡았지만, 기존의 콘텐츠 편집 과정은 많은 시간과 비용을 요구합니다. 특히, 긴 영상에서 흥미로운 순간을 찾고 이를 편집하여 쇼츠로 제작하는 과정은 매우 비효율적입니다. 저희 프로젝트는 모델을 활용해 이 과정을 자동화하고자 했습니다. whsiper, blip을 활용해 영상에서 text를 추출할 수 있도록 하고 LLM을 활용해 이 text에서 영상의 특정 부분을 선택할 수 있도록 했습니다. 해당 파이프라인을 이용해 '나홀로집에' 영화에서 웃긴 영상을 뽑았을 때, 팀원들이 모두 인정할만한 재밌는 영상을 찾을 수 있었습니다.

방법론

audio to text (whisper), image to text (blip) 를 통해 원본 영상에서 text 추출

text를 바탕으로 LLM을 활용해 사용자의 요구를 반영한 특정 타임스탬프 출력

추출된 쇼츠에서 행동 및 감정을 분석하는 알고리즘을 이용하여 제목 생성

예시 결과

영화 ‘나홀로집에’에서 쇼츠를 추출한 결과