- Random Variable : assigning a numerical value to each outcome of a particular experiment
- ex) 6.6이 나오면 500원을 줄게, 그러면 1/36 확률로 500원을 줌
- S = {elec, mecha, misuse}
- elec fail = 200$, mecha fail = 350$, misuse fail = 50$
- State Space : {50, 200, 350}
- 즉 state space는 numerical value들의 set임
- !! pmf (Probability Mass Function)
- pmf of random variable X is a set of probability values pi -> pmf(X = xi) = pi
- xi taken discrete random variable
- so P(X = 50) = 0.3 ...
- !! cdf (Cumulative Distribution Function)
- F(x) = P(X <= x) : 어떤 변수 x가 X보다 작은 확률을 모두 더한 것, 누적의 개념임
- F(x) = Sum(y:y<=x) P(x = y)
- cdf에서는 감소하지 않는다. 유지하거나 증가함
- X is continous random variable?
- Integral f(x)
- !! pdf (Probability Density Function)
- x가 continous한 값일 때. discrete 한 값 아님
- integral f(x) = 1
- pmf는 어떤 값에 의미가 있다면, pdf는 어떤 구간에 의미가 있다.
- Expectations of Discrete Random Variables
- E(x) = sum pi*xi : mean
- ex) E(cost) = 50 * 0.3 + 200 * 0.2 + 350 * 0.5 = 230
- Expectations of Continous Random Variables
- E(x) = Integral(state space) x * f(x) : mean
- 만약 pdf로 E(x)를 구한다면, 적분 시 범위의 변환, dx의 변환도 같이 해줘야 한다.
- Symmetric Ramdom Variable
- 좌우 대칭이면 f(u + x) = F(u - x)이고, mean = u이다.
- 암튼 E(g(x)) = sum g(x) f(x)인데, g(x)는 마음대로 바꿔도 되지만, f(x)는 바꾸면 안 됨. because g(x) is random variables
- !!!! Median
- F(x) = 0.5가 되는 x의 지점. mean과는 다르다.
- 확률적으로 순서를 세웠을 때 중간인 지점임
- 월급이 1, 1, 1, 97인 회사의 평균 월급은 25지만, 누가 봐도 큰 오류가 있음.
- 중간 값은 중간의 값을 내놓는다. 즉 1을 내놓음
- 만약 pdf가 symmetric 하다면 median 값은 mean 값과 같은 u를 내놓음
- Variance : 분산 평균 기준으로 얼마나 떨어져 있는가
- Var(x) = E((X - E(X))^2)
- Var(x) = E(X^2) - (E(X))^2
- Var(x) = sum g(x^2) f(x) - (sum(g(x) f(x)))^2
- Standard Deviation 표준편차
- Var(x)^1/2
- !!!!! Chebyshev's Inequality
- mean u, variance a^2 then
- P(u - ca <= X <= u + ca) >= 1 - 1/c^2
- P(u - 2a <= X <= u + 2a) >= 0.75 임
- 즉 저 범위 안의 X의 범위가 0.75보다는 크다는 뜻
- c = 3이면 0.89 임
- ex) 토마토의 평균 29.4, 표준편차 2.1일 때, 적어도 75% 이상이 되는 X의 범위는?
- ㅇ29.4 - 4.2 <= X <= 29.4 + 4.2
- !!!! Quantile 누적 값
- F(x) = p가 되는 x의 위치
- this is also referred to as the p x 100th percentile
- upper quantile : the 75th percentile on the distribution : 누적 분포가 0.75%가 되는 x의 값
- lower quantile : the 25th percentile on the distribution : 누적 분포가 0.25%가 되는 x의 값
- interquartile range : the distance between the two quartiles
- !!!! Jointly Distributed Random Variables : random variable이 두 개 이상
- joint pmf = P(X = xi, Y = yi) = sum i sum j pij = 1
- or joint pdf = f(x, y) = integral(integral(f(x, y) dxdy)) = 1
- Joint cdf도 변수가 하나일 때와 같이 계산
- !!!! Marginal Probability Distributions : x, y 중 하나만 알고 싶을 때
- P(X = xi) = pi+ = sum (j) pij : j를 다 더함
- or fx(x) = integral f(x, y) dy : y를 다 더함
- !!!! Conditional Probability Distributions
- pi|Y=yj = P(X = xi | Y = yj) = P(X = xi, Y =yj) / P(y = yj) = pij / p+j (p+j = sum(i) pij)
- or fX|Y=y(x) = f(x,y) / fy(y)
- 즉 위의 식들의 뜻은 랜덤 변수 X의 Y위에서의 조건부 확률을 구하겠다는 뜻
- y가 3일 때 x가 1인 확률 x
- y가 3일때 x가 1인 값이 차지하는 확률 o
- 이때 E(X|Y=3) 이면 Y=3인걸 찾고, 모든 X에 대해 평균을 구하면 된다.
- Independent Ramdom Variables
- 두 개의 변수가 독립임
- pij = p+j * pi+
- f(x, y) = fx(x) * fy(y)
- !!!!!! Covariance : 공분산
- Cov(x, y) = E((X - E(X))(Y - E(Y))) = E(XY) - E(X) E(Y) 임
- 값이 클수록 의존성이 큼
- 이때 두 개가 독립이면 Cov(X, Y) = 0임
- !!!! Correlation : 상관성
- Corr(X, Y) = Cov(X,Y) / (Var(x)Var(Y))^1/2
- -1~1의 값을 가짐, 독립이면 0
- Linear Functions of a Random Variable
- Y = aX + b면
- E(Y) = aE(x) + b, V(Y) = a^2Var(X)
- 만약 선형 관계에 있는 y의 pdf를 알고 싶다면, x의 pdf -> x의 cdf 를 통해서 넘어가야 함
- Fy(Y) = P(Y <= y) = P(aX + b <= y) = P(X <= (y-b)/a) = Fx((y-b)/a)와 같음
- 만약 Fy(y) = P(X >= (y-b)/a)라면 1-Fx((y-b)/a)를 하면 됨
- 이때 x의 cdf는 X에 대한 식으로 나오는데, Y = 5X - 160이면
- Fy(Y) = Fx((Y + 160)/5)이고, 이를 그대로 x의 cdf에 넣으면 됨
- 이렇게 해서 y의 cdf를 구한 후 미분하면 y의 pdf가 나옴
- Sums of Random Varialbes
- E(x1 + x2) = E(x1) + E(x2)
- Var(x1 + x2) = var(x1) + var(x2) + 2cov(x1x,2)
- 만약 x1, x2가 독립이면 var(x1 + x2) = var(x1) = var(x2)임
- So Y = (sum ai * xi) + b라면
- E(Y) = sum ai * E(xi) + b임
- Var(y) = sum ai^2 * Var(xi) 물론 이때는 모든 X가 독립임
- Averaging Independent Random Variables
- X_ = (x1 + ... + xn) / n
- E(xi) = u, Var(xi) = a^2
- so E(X_) = E(x1/n + ... + xn/n) = E(x1)/n + ... + E(xn)/n = u/n *n = u
- Var(X_) = Var(x1/n + ... + xn/n) = Var(x1)/n^2 + ... + Var(x2)/n^2 = a^2/n
- 만약 Y와 X의 관계가 NonLinear하다면?
- E(x)나 Var(x)는 못 구하므로 무조건 x pdf -> x cdf -> y cdf -> y pdf를 통해서 E(y)나 Var(y)를 구해야함
- 적분 형 변환 미분
하..
'수학 > 확률과 통계' 카테고리의 다른 글
[확률과 통계] Exponential Distribution의 Memoryless Property, Poisson Process (지수 분포의 무기억성과 푸아송 프로세스) (0) | 2022.05.25 |
---|---|
[확률과 통계] Exponential Distribution (지수 분포) (0) | 2022.05.25 |
[확률과 통계] The Uniform Distribution (0) | 2022.04.25 |
[확률과 통계] CH03 - Probability and Statistics (0) | 2022.04.13 |
[확률과 통계] CH01 - Probability and Statistics (0) | 2022.04.12 |