AI/ML

확률론 기본개념 정리

cstory-bo 2023. 12. 24. 11:24

확률론 기본개념

회귀에서는 L2 norm으로 예측오차의 분산을 가장 최소화하는 방향으로 학습한다.

분류에서는 교차 엔트로피 모델예측의 불확실성을 최소화하는 방향으로 학습한다.

확률변수 종류

데이터 공간 확률분포 에 따라 확률변수를 이산형과 연속형으로 구분한다.

1) 이산확률변수

  • 확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해 모델링한다.
  • 확률질량함수를 나타내며 식은 아래와 같다.

2) 연속확률변수

  • 데이터 공간에 정의된 확률변수의 밀도 위에서의 적분을 통해 모델링한다.

    주의!) 밀도를 확률로 해석하면 안된다.

확률분포

결합분포 P(x,y)는 D를 모델링한다.

주변확률분포

  • y가 아닌 x에 따른 확률분포로 y에 대한 정보를 주지 않는다.
  • 결합분포 P(x,y)에서 유도 가능하다.

조건부확률분포 P(x|y)

  • 주어진 y조건부에서의 x의 확률분포를 나타낸다.

조건부확률, 기계학습

  • 조건부확률   입력변수 x에 대해 정답이 y일 확률
    → 연속확률분포의 경우 는 확률이 아닌 밀도로 해석
  • 분류문제 : 데이터x로부터 추출된 특징패턴과 가중치행렬W을 통해 조건부확룰  계산
  • 회귀문제 : 조건부기대값  추정 - L2 norm을 최소화하는 함수이기 때문에

기대값이란

  • 데이터를 대표하는 통계량
  • = 평균
  • 연속확률분포는 적분(밀도), 이산확률분포는 급수로 계산(질량)한다.
  • 여러 통계적 범함수를 계산할 수 있는 도구로 사용된다.

몬테카를로 샘플링

  • 확률분포를 모를 때 데이터를 이용하여 기대값 계산하기 위해
  • 분포에서 독립적으로 샘플링,추출 해줘야 한다. 그래야 대수의 법칙에 의해 수렴성 보장한다.
  • 샘플사이즈가 적으면 오차가 커질 수 있다. 샘플링 개수 조절해줘야한다.
  • 이산형, 연속형에 상관없이 사용가능하다.