논문
https://paperswithcode.com/paper/rethinking-the-inception-architecture-for
앞의 글을 읽으시면 이해에 도움이 됩니다.
2023.08.07 - [여러 공부/논문 리뷰] - [논문 - GoogLeNet] Going deeper with convolutions
0. Abstract
- 본 논문은 Computer Vision 모델의 경량화와 효율성을 위한 논문입니다.
- 증가된 모델 사이즈와 계산 비용은 즉각적인 품질의 향상으로 이루어졌지만, 모바일 등의 상황에서 사용할 수 있는 계산 효율성과 적은 파라미터 수는 여전히 개선해야 할 사항입니다.
- 해당 논문에서는 convolution을 분해하고, 적극적인 regularization을 통해 최대한 효율적으로 계산을 추가합니다.
1. Introduction
- VGG는 아키텍처의 특징이 흥미를 돋기는 하지만, 이것은 많은 계산량을 필요로 합니다.
- 그에 반해 Inception은 엄격한 메모리와 계산 복잡도의 제한 속에서 실행할 수 있도록 디자인되었기 때문에 좋다고 하네요.
- 그럼에도 불구하고 Inception Architecture는 복잡해서 네트워크를 변경하기 어렵게 만듭니다.
- 저자는 모델을 무식하게 증가시켜서도 안 되고, 명확한 설명과 서술이 있어야 된다고 말합니다.
- 따라서 해당 논문에서는 convolution network가 효율적으로 사이즈를 키울 수 있도록 보편적인 원리와 최적화 아이디어를 제공합니다.
- 이 아이디어는 Inception에만 적용할 수 있는 것이 아니지만, Inception의 포괄적인 구조가 이러한 원리를 통합하기에 충분히 유연하기 때문에 원리를 더욱더 잘 관찰할 수 있다고 합니다.
2. General Design Principles
- 아래에서 서술하는 원리의 효율성은 이론이고, 향후 추가적인 연구 증거가 정확도와 유효성을 평가하기 위해 반드시 필요하다고 합니다.
- 다만 아래 원리에서 크게 벗어나는 편차는 네트워크의 약화로 이어지고, 편차를 통제하는 환경에서는 일반적으로 향상된 결과를 보였다고 합니다.
- Avoid representational bottlnecks, especially early in the network
- Feed-forward 네트워크는 입력층부터 분류기, 혹은 회귀층까지 이어지는 싸이클이 없는 그래프라 할 수 있습니다.
- 이것은 정보의 흐름의 방향을 명확히 제시합니다. -> 싸이클이 없는 그래프이므로.
- 입력과 출력 사이에 틈이 생긴다면, 해당 틈으로 얼마나 정보가 새는지 확인할 수 있습니다. 따라서 극단적인 압축을 통한 병목은 반드시 피해야 합니다.
- 일반적으로 representation 사이즈는 입력부터 출력까지 서서히 줄어들어야 합니다.
- 이론적으로 정보의 내용물은 단순히 representation의 차원으로 평가할 수 없는데, 이는 구조의 상관관계 같은 중요한 요소를 무시하기 때문입니다.
- 차원은 오직 정보의 내용물의 추정치를 간략하게 제공할 뿐입니다.
- 이 말은 feature map을 급격히 줄이지 말라는 의미로 보입니다.
- 예를 들어 100 * 100인 이미지를 30 * 30으로 급격히 줄이면 이는 반드시 정보의 손실이 존재할 것입니다.
- 또한 차원 수가 늘어나는 것은 이미지의 '특징'을 여러가지로 구분하는 것이지, 절대적으로 이미지 내의 상관관계를 나타내는 것이 아니기 때문입니다.
- 따라서 표현력에서 병목 현상을 만들지 말라는 뜻으로 이해됩니다.
- Higher dimensional representations ar easier to process locally within a network
- 고차원의 표현력은 네트워크 안에서 지역적으로 처리하기 쉽다는 의미이다.
- convolution network의 층마다 활성도를 증가시킬수록 특징을 더욱 덜 얽히고 설키게 만든다.
- 이는 결과적으로 학습을 빠르게 한다.
- 고차원의 표현력들을 대상으로 활성도를 증가시킬수록 고수준에 대한 정보를 더 쉽게 뽑아낼 수 있다고 파악했습니다.
- Spatial aggregation can be done over lower dimensional embeddings without much or any loss in representational power
- 저 차원 임베딩에서 공간 집합은 표현력의 손실이 적다는 의미입니다.
- 예를 들어 3 * 3 conv를 적용하기 전에, 심각한 역효과를 생각하지 않고 공간 집합 전에 입력 표현의 차원을 줄일 수 있습니다.
- 저자는 만약 출력 값들이 공간 집합 맥락에서 사용된다면 상관관계가 높은 근접한 유닛들이 차원 축소 때 정보 손실이 상당히 적기 때문이라고 가정합니다.
- 이러한 신호가 쉽게 압축이 가능하다면 차원 축소는 심지어 학습을 더 빠르게 만들어줍니다.
- 이 말은 출력 값들이 공간 집합으로 사용된다면, 상관관계가 높은 유닛들은 차원 축소를 하더라도 다른 유닛이 이를 커버할 수 있기 때문에 적은 정보 손실로도 차원 축소가 가능한 것으로 보입니다.
- Balance the width and depth of the network
- 네트워크의 최적의 성능은 스테이지의 필터 수와 네트워크의 깊이의 균형으로 가능합니다.
- 넓이와 깊이 둘 다 증가시키는 것은 고성능 네트워크를 만들 수 있습니다.
- 하지만 최적의 향상은 둘 다 평행하게 증가했을 때 달성됩니다.
- 따라서 계산 비용을 넓이와 깊이에 균형있도록 배포해야 합니다.
- 위의 원리가 좋아보이기는하나, 네트워크 품질 향상을 위해 사용하는 것은 간단치 않습니다.
- 이 아이디어는 오로지 모호한 상황에서 현명하게 사용해야 합니다.
3. Factorizing Convolutions with Large Filter Size
3.1 Factorization into smaller convolutions
- 5 * 5, 7 * 7과 같은 넓은 공간적 필터를 가지는 convolution들은 계산 비용측면에서 불균형적으로 비싼 경향이 있다.
- 5 * 5는 3 * 3 필터에 비해 25 / 9만큼 비싸다.
- 물론 넓은 필터가 초기 층에서 멀리 떨어진 유닛의 활성화 간의 신호들의 의존성을 더 잘 찾아내므로, 필터의 기하학적 사이즈를 줄이는 것은 표현력의 큰 손실로 다가올 수 있다.
- 하지만 논문에서는 같은 인풋 사이즈와 같은 아웃풋 깊이를 가지며, 또 5 * 5보다 적은 파라미터를 가지는 multi-layer 네트워크로 5 * 5를 대체할 수 있지 않겠냐라고 하고 있다.
- 위의 그림을 보면 작은 fully-connected network가 5 * 5 타일 위를 슬라이딩하는 것처럼 보인다.
- 1개의 유닛이 아래의 9개의 유닛과 연결되어 있고, 9개의 층은 아래의 25개의 유닛과 연결되어 있으므로 이를 FC로 표현한 것으로 보입니다.
- 논문에서는 5 * 5 필터를, 3 * 3으로 이루어진 두 개의 층으로 변환합니다.
- 또한 이 2개의 3 * 3 필터를, 첫 번째 필터는 3 * 3 convonlution이고, 두 번째 3 * 3은 최상층과 연결된 FC 층이라고 표현합니다.
- 변경된 모듈은 2번 섹션의 3번 원리에 의해 변경했다고 합니다.
- 1 * 1로 차원 축소를 했음에도 불구하고, 각 유닛들이 서로 다른 가지들이 상관 관계가 높기 때문에 표현력의 손실이 크게 잃어나지 않기 때문이라고 이해했습니다.
3.2 Spatial Factorization into Asymmetric Convolutions
- 3.1의 결과는 3 * 3보다 큰 필터를 3 * 3 여러 개로 줄일 수 있다고 제안하므로, 3 * 3보다 큰 필터는 일반적으로 유용하지 못하다.
- 하지만 3 * 3 또한 2 * 2 필터 2개로 분해할 수 있는데, 2 * 2로 사용하는 것보다 비대칭의 convolution을 사용하는 것이 더 좋다.
- 예를 들어 3 * 3을 1 * 3과 3 * 1으로 분해하는 것은 2 * 2 두 개를 사용하는 것보다 더 싸다고 얘기합니다.
- 따라서 n * n 필터를 1 * n, n * 1 필터로 분해한다고 합니다.
- 다만 이 분해는 초기 층에서는 잘 작동하지 않습니다. 또한 12 ~ 20사이의 범위에 있는 특징 맵에서 잘 작동합니다.
- 아마 초기에는 공간의 특징을 파악해야 하기 때문에, 초반에 사용하는 것은 좋지 않은 것 같습니다.
- 상위 층에서는 공간의 특징보다는 채널간의 상호작용이 중요하기 때문에 상위 층에서 사용하는 게 아닐까 싶네요.
- 섹션 2의 2번 원리에서 고차원의 활성도를 늘림으로써 좋은 특징을 뽑아내기 쉽다고 했는데, 여러 개의 활성화(3 * 3을 1 * 3, 3 * 1로 바꿈)를 함으로써 얽히고 설키지 않은 고수준의 특징을 뽑아내는 것으로 이해했습니다.
4. Utility of Auxiliary Classifiers
- 보조 분류기는 기울기 소실에 대응하여 수렴을 돕기 위해서 사용했습니다.
- 하지만 학습 초기에는 수렴의 향상을 보이지 않는다고 하네요.
- 보조 분류기가 없는 모델과 비교했을 때, 초반에는 비슷하다가 그래도 학습의 끝에서는 더 나은 결과를 보였다고 합니다.
- 그리고 GooLeNet에는 보조 분류기를 두 개 사용했는데, 낮은 곳에 있는 보조 분류기를 삭제해도 네트워크의 최종 퀄리티에 큰 영향을 주지 못한다고 합니다.
- 또한 이 보조 분류기가 저수준의 특징을 발전시킨다는 가설은 틀렸다고 합니다.
- 대신에 저자는 이 보조 분류기가 regularizer로써 작동한다고 합니다.
- 이것은 보조 분류기가 BN이나 dropout이 있을 때, 메인 분류기가 더 잘 작동하기 때문입니다.
- 보조 분류기는 저수준의 특징 또는 중간 수준의 특징에 대해서 분류를 하는데, 메인 분류기가 올바른 정답을 내더라도 보조 분류기에서 다른 정답을 낼 수 있습니다.
- 따라서 메인 분류기가 overfitting 되지 않도록, 보조 분류기에서 이를 방지해주는 것으로 보입니다.
- 왜냐하면 보조 분류기는 중간 수준의 특징에서 분류를 하므로, 메인 분류기보다 잘못된 결과를 낼 가능성이 높기 때문입니다.
5. Eficient Grid Size Reduction
- 제목만 봐도 2번 섹션의 1번 원리를 사용한 것으로 파악할 수 있습니다.
- k개의 채널을 가지는 d * d 그리드를 2k개의 채널을 가지는 (d/2) * (d/2) 그리드로 변경한다고 가정합시다.
- 우선 스트라이드가 1인 convolution을 적용한 후, 풀링을 합니다. -> 연산 비용이 2 * d^2 * k ^2가 됩니다.
- convolution이 1 * 1 필터라 가정했을 때, k개의 차원에 d^2만큼의 연산을 하고, 이를 2k만큼 반복하므로 그렇습니다.
- 만약 convolution을 pooling으로 대체하면 -> 연산 비용이 2 * (d/2)^2 * k^2가 됩니다.
- 이 과정에서는 k개의 차원에 d/2만큼의 연산을 하고, 이를 2k만큼 반복합니다.
- 좌측의 경우는 표현의 축소가 급격히 이루어지므로 1번 원칙을 위배합니다.
- 반대로 우측은 연산량이 좌측에 비해 3배나 높습니다.
- 따라서 위의 그림과 같은 제안을 합니다.
- 표현의 병목현상을 없애고, 풀링과 stride 2인 convolution을 병행하게 사용하여 결합합니다.
- 기존의 GooLeNet에서는 표현을 축소하기 위해 하나의 Inception이 끝난 후 max pooling을 합니다.
- 따라서 해당 논문에서는 공간 집합 후의 max pooling 연산이 표현력을 과도하게 축소하기 때문에(1번 원리) 위와 같은 제안을 한 것 같습니다.
6. Inception-v2
- 초기의 7 * 7을 3 * 3 세 개로 변경했습니다.
- 그리고 인셉션 모듈 안에서만 제로-패딩을 했다고 합니다.
- 이후 위의 모듈 3개를 사용했습니다.
- 그 다음은 해당 모듈을 5개 사용했습니다.
- 여기에 추가로 보조 분류기도 들어갑니다.
- 초기 층에서는 잘 작동을 하지 않아서, 중간 층으로 넣은 것으로 보입니다.
- 그리고 해당 모듈을 2개를 넣었는데, 고차원의 표현력을 뽑아내기 위함으로 보입니다.
7. Model Regularization via Label Smoothing
- 이 부분은 정답 라벨이 [0, 1, 0, 0]보다는 [0.1, 0.7, 0.1, 0.1]로 되는 것이 좋다는 내용입니다.
- 제가 알기로 왜인지는 명확히 밝혀지지 않았는데, 고민해본 결과 모델이 한 가지 상황(라벨이 1인 경우)에만 집중하는 것보다 다양한 상황에 집중함으로써 일반화 성능이 좋아지지 않을까 라고 조심스럽게 생각했습니다.
8. Training Methodolgy
- gradient clipping 기법을 사용했다.
- 나머지는 논문 참조
9. Performance on Lower Resolution Input
- 저해상도에도 잘 작동했다..라고 보시면 될 것 같습니다.
10. Experimental Results and Comparisons
- 맨 아래의 Inception-v2 + BN-auxiliary를 Inception-v3라고 합니다.
- 참고로 표의 4번째 행부터 쭉 내려가면서 추가되는 특성 (RMSPror, Label Smoo ...)은 모두 아래 행으로 내려가면서 누적되어 사용됩니다.
- 따라서 Inception-v3는 RMSProp + Label Smoothing + Factorized 7 * 7, BN-auxiliary를 사용합니다.
11. Conclusions
- convolution을 분해하고, 적극적인 차원 감소 덕분에 적은 계산 비용으로 높은 퀄리티를 유지할 수 있었다.
- 낮은 파라미터의 조합과 추가적인 regularization, 보조 분류기의 BN, label-smoothing이 상대적으로 적은 양의 학습 세트로도 좋은 퀄리티를 학습할 수 있었다.
마무리
일단 원리를 이해하기가...많이 힘들었습니다.
꾸역꾸역 이해했지만, 맞는지도 모르겠네요. 제 의견은 비판하면서 읽으시길..
뭔가 더 복잡해진 것 같은데 기분 탓인가요.
아무튼 원리들이 생각보다 유용할 것 같습니다.
다만 n * 1, 1 * n으로 분해하는 것은 왜 좋은지 딱 와닿지가 않네요.
파라미터 축소를 위한 사용이라면 이해되지만, 성능이 좋을지는 잘 모르겠습니다.
아무튼 긴 글 읽어주셔서 감사합니다.
잘못되거나 제가 이해한 것이 틀리다면 편하게 지적해 주시면 감사하겠습니다.
'논문 > Image&Video Recognition' 카테고리의 다른 글
[논문 - GoogLeNet] Going deeper with convolutions (2) | 2023.08.07 |
---|---|
[논문 - ResNet] Deep Residual Learning for Image Recognition (1) | 2023.08.03 |
[논문 리뷰] VGGNET - very deep convolutional networks for large-scale image recognition (0) | 2022.06.26 |