728x90

 

복습하는 확률기초

1.  기댓값

P(X)라는 분포에서 샘플링한 X를 f(x)에 넣으면 f(x)의 개별 값들을 알 수 있다. 이 값들을 평균 낸다.

 

P(x): 소문자 x이므로 분포가 아닌 어떠한 값이 주어진 상태

 

P(Z)라는 분포에서 샘플링한 Z가 주어졌을 때, X(대문자)라는 random variable이 x(소문자)를 가졌을 확률값에 대해서 가중평균을 한 것이다.

 

 

 

 

 

위 지도에서 대한민국의 면적 값을 알고 싶을 때 몬테카를로를 사용해 볼 수 있다. P(X)를 사각형 안에서 랜덤하게 유니폼 샘플링하는 함수라고 가정해본다. 그래서 위 지도에 빨간 점처럼 샘플링를 하는데, 이때 한반도에 찍힌 점과 아닌 점에 대해서 비율을 알수 있다. 예를들어 한반도 점이 20개, 그 외에 점을 100개 했을 때 20/100 = 20%이며, 이를 (w*h)*0.2계산하면 한반도의 넓이를 근사한 값이 되겠다. 만일 1억번을 점찍는다면 이 근사한 값이 더욱 정밀하게 근사하게 될것될 것이다. 즉, 몬테카를로는 샘플링 횟수가 많을수록 정밀하게 되는 approximation 방법이다

728x90

'NLP > 패캠_자연어 입문' 카테고리의 다른 글

6. MAP(Maximum A Posterior)  (0) 2021.12.01
5. MLE 수식  (0) 2021.11.29
4. MLE  (0) 2021.11.28
2. Auto Encoder  (0) 2021.11.27
1. Feature Vector  (0) 2021.11.27

+ Recent posts