수학/확률과 통계

[확률과 통계] CH02 - Probability and Statistics

바보1 2022. 4. 13. 01:10
  • Random Variable : assigning a numerical value to each outcome of a particular experiment
    • ex) 6.6이 나오면 500원을 줄게, 그러면 1/36 확률로 500원을 줌
    • S = {elec, mecha, misuse}
    • elec fail = 200$, mecha fail = 350$, misuse fail = 50$
    • State Space : {50, 200, 350}
    • 즉 state space는 numerical value들의 set임
  • !! pmf (Probability Mass Function)
    • pmf of random variable X is a set of probability values pi -> pmf(X = xi) = pi
    • xi taken discrete random variable
    • so P(X = 50) = 0.3 ...
  • !! cdf (Cumulative Distribution Function)
    • F(x) = P(X <= x) : 어떤 변수 x가 X보다 작은 확률을 모두 더한 것, 누적의 개념임
    • F(x) = Sum(y:y<=x) P(x = y)
    • cdf에서는 감소하지 않는다. 유지하거나 증가함
    • X is continous random variable?
    • Integral f(x)
  • !! pdf (Probability Density Function)
    • x가 continous한 값일 때. discrete 한 값 아님
    • integral f(x) = 1
  • pmf는 어떤 값에 의미가 있다면, pdf는 어떤 구간에 의미가 있다.
  • Expectations of Discrete Random Variables
    • E(x) = sum pi*xi : mean
    • ex) E(cost) = 50 * 0.3 + 200 * 0.2 + 350 * 0.5 = 230
  • Expectations of Continous Random Variables
    • E(x) = Integral(state space) x * f(x) : mean
  • 만약 pdf로 E(x)를 구한다면, 적분 시 범위의 변환, dx의 변환도 같이 해줘야 한다.
  • Symmetric Ramdom Variable
    • 좌우 대칭이면 f(u + x) = F(u - x)이고, mean = u이다.
  • 암튼 E(g(x)) = sum g(x) f(x)인데, g(x)는 마음대로 바꿔도 되지만, f(x)는 바꾸면 안 됨. because g(x) is random variables
  • !!!! Median
    • F(x) = 0.5가 되는 x의 지점. mean과는 다르다.
    • 확률적으로 순서를 세웠을 때 중간인 지점임
    • 월급이 1, 1, 1, 97인 회사의 평균 월급은 25지만, 누가 봐도 큰 오류가 있음.
    • 중간 값은 중간의 값을 내놓는다. 즉 1을 내놓음
    • 만약 pdf가 symmetric 하다면 median 값은 mean 값과 같은 u를 내놓음
  • Variance : 분산 평균 기준으로 얼마나 떨어져 있는가
    • Var(x) = E((X - E(X))^2)
    • Var(x) = E(X^2) - (E(X))^2
    • Var(x) = sum g(x^2) f(x) - (sum(g(x) f(x)))^2
  • Standard Deviation 표준편차
    • Var(x)^1/2
  • !!!!! Chebyshev's Inequality
    • mean u, variance a^2 then
    • P(u - ca <= X <= u + ca) >= 1 - 1/c^2
    • P(u - 2a <= X <= u + 2a) >= 0.75 임
    • 즉 저 범위 안의 X의 범위가 0.75보다는 크다는 뜻
    • c = 3이면 0.89 임
    • ex) 토마토의 평균 29.4, 표준편차 2.1일 때, 적어도 75% 이상이 되는 X의 범위는?
      • ㅇ29.4 - 4.2 <= X <= 29.4 + 4.2
  • !!!! Quantile 누적 값
    • F(x) = p가 되는 x의 위치
    • this is also referred to as the p x 100th percentile
    •  
    • upper quantile : the 75th percentile on the distribution : 누적 분포가 0.75%가 되는 x의 값
    • lower quantile : the 25th percentile on the distribution : 누적 분포가 0.25%가 되는 x의 값
    • interquartile range : the distance between the two quartiles
  • !!!! Jointly Distributed Random Variables : random variable이 두 개 이상
    • joint pmf = P(X = xi, Y = yi) = sum i sum j pij = 1
    • or joint pdf = f(x, y) = integral(integral(f(x, y) dxdy)) = 1
  • Joint cdf도 변수가 하나일 때와 같이 계산
  • !!!! Marginal Probability Distributions : x, y 중 하나만 알고 싶을 때
    • P(X = xi) = pi+ = sum (j) pij : j를 다 더함
    • or fx(x) = integral f(x, y) dy : y를 다 더함
  • !!!! Conditional Probability Distributions
    • pi|Y=yj = P(X = xi | Y = yj) = P(X = xi, Y =yj) / P(y = yj) = pij / p+j (p+j = sum(i) pij) 
    • or fX|Y=y(x) = f(x,y) / fy(y)
    • 즉 위의 식들의 뜻은 랜덤 변수 X의 Y위에서의 조건부 확률을 구하겠다는 뜻
    • y가 3일 때 x가 1인 확률 x
    • y가 3일때 x가 1인 값이 차지하는 확률 o
    • 이때 E(X|Y=3) 이면 Y=3인걸 찾고, 모든 X에 대해 평균을 구하면 된다. 
  • Independent Ramdom Variables
    • 두 개의 변수가 독립임
    • pij = p+j * pi+
    • f(x, y) = fx(x) * fy(y)
  • !!!!!! Covariance : 공분산
    • Cov(x, y) = E((X - E(X))(Y - E(Y))) = E(XY) - E(X) E(Y) 임
    • 값이 클수록 의존성이 큼
    • 이때 두 개가 독립이면 Cov(X, Y) = 0임
  • !!!! Correlation : 상관성
    • Corr(X, Y) = Cov(X,Y) / (Var(x)Var(Y))^1/2
    • -1~1의 값을 가짐, 독립이면 0
  • Linear Functions of a Random Variable
    • Y = aX + b면
    • E(Y) = aE(x) + b, V(Y) = a^2Var(X)
  • 만약 선형 관계에 있는 y의 pdf를 알고 싶다면, x의 pdf -> x의 cdf 를 통해서 넘어가야 함
    • Fy(Y) = P(Y <= y) = P(aX + b <= y) = P(X <= (y-b)/a) = Fx((y-b)/a)와 같음
    • 만약 Fy(y) = P(X >= (y-b)/a)라면 1-Fx((y-b)/a)를 하면 됨 
    • 이때 x의 cdf는 X에 대한 식으로 나오는데, Y = 5X - 160이면
    • Fy(Y) = Fx((Y + 160)/5)이고, 이를 그대로 x의 cdf에 넣으면 됨
    • 이렇게 해서 y의 cdf를 구한 후 미분하면 y의 pdf가 나옴
  • Sums of Random Varialbes
    • E(x1 + x2) = E(x1) + E(x2)
    • Var(x1 + x2) = var(x1) + var(x2) + 2cov(x1x,2)
    • 만약 x1, x2가 독립이면 var(x1 + x2) = var(x1) = var(x2)임
    •  
    • So Y = (sum ai * xi) + b라면
    • E(Y) = sum ai * E(xi) + b임
    • Var(y) = sum ai^2 * Var(xi) 물론 이때는 모든 X가 독립임
  • Averaging Independent Random Variables
    • X_ = (x1 + ... + xn) / n
    • E(xi) = u, Var(xi) = a^2
    • so E(X_) = E(x1/n + ... + xn/n) = E(x1)/n + ... + E(xn)/n = u/n *n = u
    • Var(X_) = Var(x1/n + ... + xn/n) = Var(x1)/n^2 + ... + Var(x2)/n^2 = a^2/n
  • 만약 Y와 X의 관계가 NonLinear하다면?
    • E(x)나 Var(x)는 못 구하므로 무조건 x pdf -> x cdf -> y cdf -> y pdf를 통해서 E(y)나 Var(y)를 구해야함
    •                                                      적분     형 변환     미분

하..