1. Classification
말 그대로 해당 Image Object가 어떤 물체인지 분류하는 작업입니다.
대표적인 모델로는 EfficientNet이 있습니다.
EfficientNet의 점수이며, 상대적으로 파라미터가 적음에도 불구하고 높은 정확도를 보이고 있습니다.
EfficientNet의 구조는 다음과 같습니다.
a를 보면 기본적인 모델의 구조입니다.
이때 EfficientNet은 다양한 테스트를 해봤는데, 기본적으로 채널 수를 더욱 늘려도 보았고, 깊이도 더 깊이 해봤고, 해상도도 변경했었습니다.
마지막으로 모두 혼합해서 테스트도 했습니다.
다양한 테스트 이후 좋은 구조를 합친 것이 바로 EfficientNet입니다.
가장 중요한 것은 결과가 아니라 과정에서 이 사람들이 왜 이런 생각을 했을까? 가 가장 중요한 것 같습니다.
2. Object Detection
객체를 감지하는 작업입니다.
이처럼 다양한 물체에 대해 객체를 검출합니다.
여기서는 classification까지 되어있는 모습을 볼 수 있습니다.
대표적인 모델은 Faster R-CNN입니다.
우선 conv layer에서 feature map을 추출합니다.
이때 흰색이 나오는 곳 (conv layer을 통해서 뭔가 의미가 있을 것 같은 곳)을 대상으로 classification을 합니다.
만약 무엇인가가 확인되면 해당 부분을 object로 판단합니다.