2024년 2학기 AIKU 활동으로 진행한 프로젝트입니다
소개
숏폼 콘텐츠가 현재 핵심 트렌드로 자리 잡았지만, 기존의 콘텐츠 편집 과정은 많은 시간과 비용을 요구합니다. 특히, 긴 영상에서 흥미로운 순간을 찾고 이를 편집하여 쇼츠로 제작하는 과정은 매우 비효율적입니다. 저희 프로젝트는 모델을 활용해 이 과정을 자동화하고자 했습니다. whsiper, blip을 활용해 영상에서 text를 추출할 수 있도록 하고 LLM을 활용해 이 text에서 영상의 특정 부분을 선택할 수 있도록 했습니다. 해당 파이프라인을 이용해 '나홀로집에' 영화에서 웃긴 영상을 뽑았을 때, 팀원들이 모두 인정할만한 재밌는 영상을 찾을 수 있었습니다.
방법론
1.
audio to text (whisper), image to text (blip) 를 통해 원본 영상에서 text 추출
2.
text를 바탕으로 LLM을 활용해 사용자의 요구를 반영한 특정 타임스탬프 출력
3.
추출된 쇼츠에서 행동 및 감정을 분석하는 알고리즘을 이용하여 제목 생성
예시 결과
영화 ‘나홀로집에’에서 쇼츠를 추출한 결과