1. 연구 동기 (Motivation & Contribution)
현재의 discrimintative model의 성능은 일반적인 image에서는 높지만 Contextual Inconsistency에서는 성능이 매우 떨어지게 된다. 하지만, generative model은 contextual inconsistency한 image도 잘 generation한다는 점에서 generation model의 성능이 contextual inconsistency에 크게 영향을 받지 않는다.
또한, discriminative model은 object를 texture에 편향되어 recognition을 한다. 즉, high frequency 정보에 기반하여 recognition한다. 하지만, 인간은 low frequency에 기반하여 recognition을 하므로 shape에 더 편향되어있다. generative model은 shape bias일지 texture bias일지에 대한 연구는 아직 진행되지 않았기에 이 논문에서는 이에 대한 실험을 진행하고자 한다.
따라서, 이 논문은 discriminative model과 generative model을 classification task의 관점에서 비교하고자 하며, object recognition의 측면에서 두 model을 비교하고자 한다.
2. 배경 소개 (Background & Related Works)
논문 소개에 앞서 논문의 contribution에서 나왔던 실험을 하나 설명하고자 한다. 이 논문의 책임 저자가 작성한 논문이자 discriminative model과 인간의 bias(texture vs shape)을 비교한 논문인 ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness (Geirhoset al., 2019)이다. 논문에서는 discriminative model과 사람이 texture bias일지 shape bias일지를 알아보기 위해 cue conflict image를 실험에 사용하였다.
결과는, 인간은 shape bias였고, discriminative model(AlexNet, VGG16, GoogLeNet, Resnet-18)은 거의 모든 category에서 texture bias를 보였다.
이 논문에서 얻을 수 있는 insight는 , CNN은 아직 인간과 비슷한 visual object recognition을 보여주지 않으며 shape-bias model이 object recognition에서 더 beneficial할 것이라는 점이다.
3. 방법론 (Methodology)
여기서 사용한 generative model은 Imagen, Stable Diffusion, Parti이며 비교를 위한 discriminative model로는 Vit-22B와 CLIP (ViT-L/14@224px)을 사용하였다.
generative model에 넣어주는 prompt는 class별로 “a bad photo of a <class>”로 바꾸어 넣어주었다. classification은 original image와 generated image간의 L2 loss의 값이 가장 작은 값을 가지는 class로 하였다.
4. 실험 결과 및 분석 (Experiments & Results)
Shape biased vs Texture biased
related work에서 언급한 것에 따르면, 사람은 shape bias, discriminative mode은 texture bias이다. 현 실험 결과, generative model은 인간과 같은 shape bias이다.
OOD accuracy
OOD dataset을 활용하여 모델과 인간을 비교하고자 했다. 현재 가장 성능이 좋은 ViT-22B가 인간을 넘어선 OOD accuracy를 보였고, Imagen이 인간에 가까운 OOD accuracy를 보였다.
Error consistency
인간과 generative model간의 error consistency가 높으며 discriminative model과는 error consistency가 낮다. 따라서 generative model의 object recognition이 discriminative model보다 인간에 가깝다고 해석할 수 있다.
Illusion
유일한 qualitative experience이며 Discriminative model로는 실험하기 힘들었던 bistable illusion과 pareidolia에 대해 알아보고자 했다. Generative model들은 bistable illusion 이미지에서 각각 object의 class로 generation했을 때 원본 이미지가 무너지지 않았다. 즉, bistable illusion을 두 개의 object로 볼 수 있다는 것을 이해했다는 것이다.
5. 결론 (Conclusion)
이 논문에서는 generative model와 discriminative model을 단순 accuracy 값으로 비교했기에 계산속도와 같은 측면은 고려하지 않았다. 또한, generative model간의 data, model size, training time을 맞추지 않았기에 똑같은 조건하에서 실험을 진행하지 않았다는 점에서 정확한 비교가 이루어지지 않았다.
하지만, 이 논문에서는 두 가지 시사점을 남겼다. 하나는 현재 ood data에 대해 낮은 performance보이는 task에서 generative model로 pre-training한다면 더 높은 performance를 기대할 수 있다는 점이다. 다른 하나는 인간의 visual perception이 generative model이냐 discriminative model이냐라는 연구 분야에서 하나의 연구 insight를 제공한 것이다.
참고자료
•
Jaini, Priyank et al. “Intriguing properties of generative classifiers.” (2023)
•
Geirhos, Robert et al. “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness.” (2018)
•
“How does the brain combine generative models and direct discriminative computations in high-level vision?”(2021)