인공지능/머신러닝 58

[머신러닝 - 이론] Regularization (규제)

앞의 글을 읽으시면 이해에 도움이 됩니다. 2022.10.18 - [Computer Science/머신러닝] - [머신러닝 - 이론] Polynomial Regression (다항 회귀) [머신러닝 - 이론] Polynomial Regression (다항 회귀) 앞의 글을 읽으시면 이해에 도움이 됩니다. 2022.10.18 - [Computer Science/머신러닝] - [머신러닝 - 이론] Linear Regression (선형 회귀) [머신러닝 - 이론] Linear Regression (선형 회귀) 앞의 글을 읽으시면 이해 hi-guten-tag.tistory.com 2022.10.18 - [Computer Science/머신러닝] - [머신러닝 - 이론] OverFitting, UnderFitt..

[머신러닝 - 이론] OverFitting, UnderFitting, Cross Validation (과대 적합, 과소 적합, 교차 검증)

앞의 글을 읽으시면 이해에 도움이 됩니다. 2022.10.18 - [Computer Science/머신러닝] - [머신러닝 - 이론] Polynomial Regression (다항 회귀) [머신러닝 - 이론] Polynomial Regression (다항 회귀) 앞의 글을 읽으시면 이해에 도움이 됩니다. 2022.10.18 - [Computer Science/머신러닝] - [머신러닝 - 이론] Linear Regression (선형 회귀) [머신러닝 - 이론] Linear Regression (선형 회귀) 앞의 글을 읽으시면 이해 hi-guten-tag.tistory.com 1. OverFitting, UnderFitting이란? OverFitting은 과잉 적합, 과대 적합으로 불리며, 모델이 훈련 데..

[머신러닝 - 이론] Polynomial Regression (다항 회귀)

앞의 글을 읽으시면 이해에 도움이 됩니다. 2022.10.18 - [Computer Science/머신러닝] - [머신러닝 - 이론] Linear Regression (선형 회귀) [머신러닝 - 이론] Linear Regression (선형 회귀) 앞의 글을 읽으시면 이해에 도움이 됩니다. 2022.04.07 - [Computer Science/머신러닝] - [머신러닝 - 이론] 인공지능이란? (What is artificial intelligence?) [머신러닝 - 이론] 인공지능이란? (What is artificial intellig hi-guten-tag.tistory.com 1. 다항 회귀란? 만약 가지고 있는 데이터가 직선보다 복잡하다면 어떨까요? 여전히 linear model이 nonlin..

[머신러닝 - 이론] Linear Regression (선형 회귀)

앞의 글을 읽으시면 이해에 도움이 됩니다. 2022.04.07 - [Computer Science/머신러닝] - [머신러닝 - 이론] 인공지능이란? (What is artificial intelligence?) [머신러닝 - 이론] 인공지능이란? (What is artificial intelligence?) 들어가기에 앞서서 머신러닝의 대다수의 글은 코드 보다는 수학적 이론, 설명 위주로 할 예정입니다. 저는 원래 설명 - 수학적 이론 - 코드 방식으로 공부하는 bottom-up 방식을 매우 좋아합니다. hi-guten-tag.tistory.com 2022.04.08 - [Computer Science/머신러닝] - [머신러닝 - 이론] 머신러닝의 기초 (Fundamental of Machine Lear..

[머신러닝 - Python] SIgmoid 계층 구현 (Sigmoid Class Implementation)

1. Sigmoid 함수 sigmoid 함수는 다음과 같습니다. \(y = \frac{1}{1 + exp(-x)}\) 이때 sigmoid 함수를 계산 그래프로 표현하면 아래의 사진과 같습니다. 숝 sigmoid에는 +, * 말고 새로운 exp, / 노드가 추가 되었습니다. 이때 주의해야 할 점은 계산 할 때는 국소적 미분으로 계산해야 한다는 점입니다. 해당 노드는 해당 노드의 미분 값만 계산해야 합니다. 1 단계 / 노드, 즉 \(y = \frac{1}{x}\)를 미분하면 다음 식이 됩니다. \(\frac{\partial y}{\partial x} = -\frac{1}{x ^ 2} = -y^2\) 따라서 상류에서 흘러온 값에 \(-y^2\)을 곱해서 하류로 보냅니다. 여기서 주의해야 할 점은 순전파때 사..

[머신러닝 - Python] ReLU 계층 구현 (ReLU class implementation)

1. ReLU 함수 \(y = \left\{\begin{matrix} x \,\, (x > 0) \\ 0 \,\, (x\leq 0) \end{matrix}\right.\) 이므로 x에 대한 y의 미분은 다음과 같습니다. \(\frac{\partial y}{\partial x} = \left\{\begin{matrix} 1 \,\, (x > 0) \\ 0 \,\, (x\leq 0) \end{matrix}\right.\) 따라서 순전파 때 입력의 크기인 x가 0보다 크면 역전파는 상류의 값을 그대로 흘려보냅니다. 반면, 순전파 때 x가 0보다 작으면 역전파 때는 하류로 신호를 보내지 않습니다. 2. 구현 class Relu: def __init__(self) -> None: self.mask = None d..

[머신러닝 - Python] 덧셈, 곱셈 노드 오차 역전파 구현 (Addition, Multiplication Back Propagation Implementation)

class MulLayer: # 곱셈 계층 def __init__(self) -> None: self.x = None self.y = None def forward(self, x, y): # 순전파, x와 y의 값을 저장해야만 backward때 사용할 수 있다. self.x = x self.y = y out = x * y return out def backward(self, dout): # 역전파로 상위 계층에서의 미분 값 * 반대 노드의 값을 출력한다. dx = dout * self.y dy = dout * self.x return dx, dy class AddLayer: # 덧셈 계층 def __init__(self) -> None: pass def forward(self, x, y): # 순전파, ..

[머신러닝 - 이론] 오차 역전파, 오류 역전파 (Back Propagation)

인공지능을 공부하면서 가장 어려웠다고 생각하는 부분입니다. 이해하는 과정이 너무 어려웠고, 구글에 검색해도 죄다 중간 과정은 건너뛰고 결론만 써놓았더라고요.. 아무튼 이해하는데 쉽지 않았고, 이 글도 쓸까 말까 고민했습니다.. 너무 양도 많고 어려워서... 해당 글에서는 온갖 수식과 그림이 난무할 테니 집중해서 읽어주시면 아마 오차 역전파를 이해하는데 큰 도움이 되리라 생각합니다. 0. 시작하기에 앞서 오차 역전파를 설명하는 대표적인 두 가지 방법이 있습니다. 수식을 전개해서 설명하는 방법이 있고, 그림을 그려가며 역전파를 이해하는 방법이 있습니다. 상대적으로 그림을 그려가며 이해하는 방식이 쉽지만, 보다 정확한 이해를 위해서는 결국 수식을 통해 증명해야 합니다. 해당 글에서는 둘 다 섞어서 설명할 계획..

[머신러닝 - 이론] 수치 미분 (Numerical Differentiation)

오차 역전파를 정리하려고 했는데, 그전에 수치 미분을 알아야 할 것 같아서 먼저 정리합니다. 앞선 글에서 설명했던 경사 하강법을 이용하여 에러를 최소화하기 위해서는 현재 상태에서의 기울기를 알아야 합니다. 정확히는 현재의 가중치 및 편차가 오류에 얼만큼의 영향을 끼치는지 알아야 합니다. 만약 손실함수가 \(f(x) = x^2\)이라면 미분을 통하여 \(2x\)를 통해 좌표 (0, 0)이 최소가 됨을 알 수 있습니다. 하지만 현실의 손실 함수는 저렇게 간단하지 않고, 또한 간단히 \(x\)를 통해서 나타나지도 않습니다. 따라서 보다 효율적이게 기울기를 찾아야 하는데, 이때 사용되는 것이 수치 미분과 오차 역전파입니다. 1. 수치 미분이란? 다들 아시겠지만, 미분이란 어느 한 점에서의 기울기를 뜻합니다. 즉..

[머신러닝 - Python] 2층 신경망 구현 (Two Layer Net Implementation)

from audioop import cross import sys, os sys.path.append(os.path.dirname(os.path.abspath(os.path.dirname(__file__)))) from common import * import numpy as np class TwoLayerNet: def __init__(self, input_size, hidden_size, output_size, weight_init_std = 0.01) -> None: # 파라미터를 정규 분포로 초기화 함 self.params = {} self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size) self.params['b..