728x90

Maximum A Posterior(MAP)

D는 datset를 뜻하고, h는 가정,가설을 뜻한다. 즉, 데이터가 주어 졌을 때 그 데이터에 대한 가설을 얘기하는 것이다. MLE는 likelihood를 maximize하는 방법이다. 마찬가지로 것처럼 h값을 maximize하는 즉, 데이터가 주어 졌을 때 Posterior를 maximize할수있다. 그래서 이번 글에서는 Posterior를 maximize해서 h값을 찾는 방법에 대해서 알아본다.

 

X 값이 240일 때 남자일까? 여자일까?를 묻고 있다. 이때 우리는 쉽게 정답을 내린다. 240이면 대부분 여자다. 이 생각이 바로 가능도 확률이다. 우리도 모르는 사이에 가능도를 재고 있었던 것이다. 아래 이미지를 통해 보도록 한다.

첫번째) y가 남자일 때 신발사이즈가 240일 확률은?

두번째) y가 여자일 때 신발사이즈가 240일 확률은?

두개의 가설중에서 우리는 무의식적으로 두번째라고 생각했을 것이다. 이러한 개념이 likelihood이다. 이러한 결과는 이미 한 가지 가정이 들어가 있는 결과다. 바로 y에 대해서 “남녀비율이 같을 때”를 가정하고 우리는 계산한 것이다.

 

 

 

 

위 글 처럼 범행 장소가 군부대였다면 성비가 맞지 않을 것이다. 100:1 비율로 남자가 압도적이라면 확률 상 범인은 남자일 것이다.

위에서 말한 것처럼, 240신발 사이즈라면 여자일 확률이 높겠지만 P(y=male)의 값이 99%로 압도적이라면 결국 남자가 범인일 확률이 클 수밖에 없다. (P(y=male) = 0.99, P(y=female)=0.01) 이 개념이 MAP이다.

 

P(D)는 결과에 영향을 주지않으므로 삭제한다. 맨 밑에 식을 보면 결국 likelihood에 prior를 곱한 값을 최대화 하는 과정을 말한다.

베이지안 관점의 첫번째 줄 수식을 해석하면 어떤 데이터가 주어졌을 때 theta 확률값 즉 theta 확률분포를 가장 높이는 theta 값이 theta_hat이 되는 것이다. 이렇게만 보면 우리가 늘 이렇게 해 왔던 것처럼 느껴질수도 있다. 하지만 오른쪽 수식이 우리가 해왔던 방식이다.

Freq 관점의 수식을 보면 어떤 theta가 주어졌을 때 데이터 확률분포를 가장 높이는 theta값을 찾고 있었다. 베이지안 관점에의 두번째 수식을 보면 likelihood 식이 freq관점의 수식과 같다는 것이다. 이에 대해서 제가 추측되는 것을 말해 보자면, 딥러닝 연산이 시작되면 초기 wieghts들은 랜덤값으로 정해진 후, Loss를 구하고 GD를 통해 파리미터를 업데이트 한다. 그리곤 업데이트 한 파라미터를 가지고 실제 target과의 차이를 구하게 또 구한 뒤, GD를 실행한다. 이 과정이 P(D;theta)를 말하는 것이라 생각된다. 식을 좀더 풀어서 말해본다면 어떠한 theta값이 주어졌을 때 (나는 이부분을 theta의 업데이트 과정(backward-GD)이라고 생각한다) 가장 데이터 확률분포를(우리가 딥러닝을 하는 이유는 모집단에서 샘플링한 데이터를 통해 모집단에 근사 시키는 파라미터를 찾고자 하는 것이기 때문에, 모집단의 확률분포에 가장 크게 근접 시키는 theta값을 찾아야 한다) 높이는 theta값을 찾는다. (이 해석은 제 개인적인 생각이므로 틀릴 수 있다.)

그래서, 여태껏 우리가 했던 것은 위 설명대로 freq관점에서 실행했다면 이번엔 베이지안 관점을 자세히 보도록 한다.

  

MAP는 likelihood를 최대화 하는 동시에 P(theta)를 최대화 해줘야 한다. 이 말은 즉, theta를 maximize해줘야 한다는 것이다. 이 뜻은 딥러닝 weights 파라미터는 어떠한 확률분포를 가지고 있다는 말이 된다.

theta값에 확률 분포가 있다는 뜻은 무엇일까? 데이터를 잘 설명해 줄 수 있는, 잘 표현 해줄 수 있는 theta의 확률 분포가 있다는 것이다. 확률분포는 확률변수가 특정 값을 가질 확률이 얼마나 되는냐를 나타내는 것을 말한다.    

Freq관점에서는 현재까지 모은 데이터에 대해서 잘 설명하면 되는데 베이지안 관점은 현재 데이터도 잘 설명해야 할 뿐 더러 미래에 얻게될 데이터까지도 잘 설명 해야한다. 만일 다를 경우엔 theta 확률분포에 특정한 가정을 설정해서 과적합을 피하도록 할 수 있다. 즉, 데이터를 잘 설명하는 theta 확률 분포만 알게 되면 조금 조정을 통하여 얼마든지 적잘한 확률분포를 변형 시킬수 있다는 뜻으로 해석된다(개인적 생각) 마치 코로나라ㄴ는 큰 틀의 구조가 있고, 백신을 맞은 인간이라는 예상치 못한 변수를 만났을 때, 변이 코로나를 일으켜 다시 인간을 공격할만한 최적 상태를 재 창조 하는 것처럼..?

 

728x90

'NLP > 패캠_자연어 입문' 카테고리의 다른 글

8.Cross_entropy  (0) 2021.12.07
7.Kullback  (0) 2021.12.07
5. MLE 수식  (0) 2021.11.29
4. MLE  (0) 2021.11.28
3. Probabilistic Perspective  (0) 2021.11.28

+ Recent posts