숏폼 콘텐츠가 현재 핵심 트렌드로 자리 잡았지만, 기존의 콘텐츠 편집 과정은 많은 시간과 비용을 요구합니다. 특히, 긴 영상에서 흥미로운 순간을 찾고 이를 편집하여 쇼츠로 제작하는 과정은 매우 비효율적입니다. 저희 프로젝트는 모델을 활용해 이 과정을 자동화하고자 했습니다. whsiper, blip을 활용해 영상에서 text를 추출할 수 있도록 하고 LLM을 활용해 이 text에서 영상의 특정 부분을 선택할 수 있도록 했습니다. 해당 파이프라인을 이용해 '나홀로집에' 영화에서 웃긴 영상을 뽑았을 때, 팀원들이 모두 인정할만한 재밌는 영상을 찾을 수 있었습니다.