728x90
복습하는 확률기초
1. 기댓값
P(X)라는 분포에서 샘플링한 X를 f(x)에 넣으면 f(x)의 개별 값들을 알 수 있다. 이 값들을 평균 낸다.
P(x): 소문자 x이므로 분포가 아닌 어떠한 값이 주어진 상태
P(Z)라는 분포에서 샘플링한 Z가 주어졌을 때, X(대문자)라는 random variable이 x(소문자)를 가졌을 확률값에 대해서 가중평균을 한 것이다.
위 지도에서 대한민국의 면적 값을 알고 싶을 때 몬테카를로를 사용해 볼 수 있다. P(X)를 사각형 안에서 랜덤하게 유니폼 샘플링하는 함수라고 가정해본다. 그래서 위 지도에 빨간 점처럼 샘플링를 하는데, 이때 한반도에 찍힌 점과 아닌 점에 대해서 비율을 알수 있다. 예를들어 한반도 점이 20개, 그 외에 점을 100개 했을 때 20/100 = 20%이며, 이를 (w*h)*0.2계산하면 한반도의 넓이를 근사한 값이 되겠다. 만일 1억번을 점찍는다면 이 근사한 값이 더욱 정밀하게 근사하게 될것될 것이다. 즉, 몬테카를로는 샘플링 횟수가 많을수록 정밀하게 되는 approximation 방법이다
728x90
'NLP > 패캠_자연어 입문' 카테고리의 다른 글
6. MAP(Maximum A Posterior) (0) | 2021.12.01 |
---|---|
5. MLE 수식 (0) | 2021.11.29 |
4. MLE (0) | 2021.11.28 |
2. Auto Encoder (0) | 2021.11.27 |
1. Feature Vector (0) | 2021.11.27 |