확률론 기본개념
회귀에서는 L2 norm으로 예측오차의 분산을 가장 최소화하는 방향으로 학습한다.
분류에서는 교차 엔트로피로 모델예측의 불확실성을 최소화하는 방향으로 학습한다.
확률변수 종류
데이터 공간 확률분포 에 따라 확률변수를 이산형과 연속형으로 구분한다.
1) 이산확률변수
- 확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해 모델링한다.
- 확률질량함수를 나타내며 식은 아래와 같다.
2) 연속확률변수
- 데이터 공간에 정의된 확률변수의 밀도 위에서의 적분을 통해 모델링한다.
주의!) 밀도를 확률로 해석하면 안된다.
확률분포
결합분포 P(x,y)는 D를 모델링한다.
주변확률분포
- y가 아닌 x에 따른 확률분포로 y에 대한 정보를 주지 않는다.
- 결합분포 P(x,y)에서 유도 가능하다.
조건부확률분포 P(x|y)
- 주어진 y조건부에서의 x의 확률분포를 나타낸다.
조건부확률, 기계학습
- 조건부확률 → 입력변수 x에 대해 정답이 y일 확률
→ 연속확률분포의 경우 는 확률이 아닌 밀도로 해석 - 분류문제 : 데이터x로부터 추출된 특징패턴과 가중치행렬W을 통해 조건부확룰 계산
- 회귀문제 : 조건부기대값 추정 - L2 norm을 최소화하는 함수이기 때문에
기대값이란
- 데이터를 대표하는 통계량
- = 평균
- 연속확률분포는 적분(밀도), 이산확률분포는 급수로 계산(질량)한다.
- 여러 통계적 범함수를 계산할 수 있는 도구로 사용된다.
몬테카를로 샘플링
- 확률분포를 모를 때 데이터를 이용하여 기대값 계산하기 위해
- 분포에서 독립적으로 샘플링,추출 해줘야 한다. 그래야 대수의 법칙에 의해 수렴성 보장한다.
- 샘플사이즈가 적으면 오차가 커질 수 있다. 샘플링 개수 조절해줘야한다.
- 이산형, 연속형에 상관없이 사용가능하다.
'AI > ML' 카테고리의 다른 글
베이즈 통계학 알아보기 (0) | 2023.12.24 |
---|---|
통계학 기본개념 정리 (0) | 2023.12.24 |
소프트맥스, 활성함수, 역전파에 대해 알아보기 (0) | 2023.12.24 |
행렬, 역행렬, 경사하강법에 대해 알아보기 (0) | 2023.12.24 |
벡터, L1 L2 norm에 대해 알아보기 (0) | 2023.12.24 |