Search

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

분류
Paper Review
세부 분류
Momentum
게시일
2025/02/13 01:58
발표일
2025/01/16
작성자
작성 완료
작성 완료

1. 연구 동기 (Motivation & Contribution)

모델을 키울수록 학습하는데 더 많은 데이터가 필요. CV 분야에서는 Image-Text pair가 필요한데 이걸 확보하기가 어려움: 비용이 너무 많이 들거나 데이터가 너무 noisy함(인터넷에서 크롤링). NLP에서 사용하는 self-supervised masked signal prediction을 CV 분야에서 적용.

2. 배경 소개 (Background & Related Works)

NLP에서 하는 self-supervised masked signal prediction을 CV에 적용: Masked Image Modeling(MIM). 2021년도에 MIM을 사용해서 학습한 MAE 모델이 나왔는데 성능이 잘 안 나옴.
CLIP은 contrastive learning과정을 통해 이미지 embedding space와 텍스트 embedding space를 align 시킴. 이미지-텍스트에 대한 방대한 지식을 쌓아서 downstream tasks에 적용.

3. 방법론 (Methodology)

이미지 인코더(ViT)를 MIM 사용해서 학습. 픽셀 단위에서 masked prediction하면 성능이 잘 안 나옴. 이미지는 information-sparse하다: 하나의 이미지에 픽셀은 많아도 정작 유의미한 정보를 갖고 있는 픽셀들은 많지가 않다. 픽셀 단위에서 학습을 진행하면 모델은 low-level cues(텍스쳐, 색상, 모양) 등과 같은 정보를 학습.
픽셀을 예측하는 것보다는 CLIP 모델의 features를 예측하도록 학습. CLIP 모델은 이미 high-level semantics 정보를 갖고 있기 때문에, 이러한 학습과정을 갖게 되면 이론상 low-level(masked image modeling) 부터 high-level(CLIP features) 정보들을 전부 학습할 수 있다고 저자가 주장함.
모델이 너무 크면 대중들이 쉽게 사용하지 못함. EVA-02에서는 모델의 구조를 수정함으로써 파라미터를 1B(EVA-01)에서 304M로 줄일 수 있었다고 함. 3가지 변경사항: (1) GELU → SwiGLU, (2) sub-LN 추가, (3) relative position embedding → 2D rotary position embedding 사용.

4. 실험 결과 및 분석 (Experiments & Results)

EVA 이미지 인코더를 사용해서 downstream tasks에 fine-tuning 했을 때 SoTA 이상의 성능을 보여줌.
EVA-02는 EVA보다 파라미터 수가 훨씬 적은데도 불구하고 모델 개선을 통해 더 좋은 성능을 보여줌.

5. 결론 (Conclusion)

EVA는 CLIP features를 사용한 masked image modeling을 통해 모델 파라미터 수를 크게 늘릴 수 있었고 모델 성능을 끌어올릴 수 있었음. EVA-02에서는 모델 개선을 통해 파라미터 수를 줄이는 대신 모델 성능을 어느정도 유지/개선할 수 있었음.
CV 분야에서 synthetic data를 사용해서 모델 성능을 높이는데 많은 연구가 진행되고 있음. 결국 synthetic data는 실제 데이터와 distribution gap이 존재하기 때문에 이 방법을 사용해서 모델 성능을 높이는데 한계가 있음. NLP에서 많은 모델에 대한 연구를 통해 성능을 개선했던 것처럼, CV 분야에서도 모델에 대한 연구가 더 많이 필요한 상황임.

참고자료

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale, Fang et al., CVPR 2023
EVA-02: A Visual Representation for Neon Genesis, Fang et al., IMAVIS’24
Learning Transferable Visual Models From Natural Language Supervision, Radford et al., ICML 2021