인공지능/머신러닝

[머신러닝 - 이론] 활성화 함수에서 비선형 함수를 사용해야 하는 이유 (Why We Use nonlinearlly function in Activation Function)

바보1 2022. 5. 7. 16:16

신경망에서 활성화 함수는 비선형 함수를 사용해야 합니다.

앞에서 본 계단 함수나 시그모이드 함수 모두 비선형 함수입니다.

 

그렇다면 선형함수는 무엇일까요?

선형함수는 y = ax + b와 같이 x 값의 배수를 출력하는 함수를 말합니다.

즉 1개의 곧은 직선이 됩니다.

 

왜 선형 함수는 사용하면 안 될까요?

바로 은닉층을 깊게하는 의미가 없어지기 때문입니다.

 

예를 들어 활성화 함수 h(x) = cx라고 가정해봅시다.

이때 3층 네트워크라고 가정하면 y = h(h(h(x)))가 되고, 이는 c^3 x와 같습니다.

근데 a = c^3이라고 한다면? 

그냥 y = ax와 다를게 없습니다.

즉, 층을 깊게하는 의미가 없어지는 겁니다.

 

따라서 우리는 활성화 함수를 필연적으로 비선형 함수를 이용해야합니다.

그래야 층을 쌓는 혜택을 얻을 수 있기 때문입니다.

 

 

감사합니다.

 

 

지적 환영합니다.