728x90
KullbackLeibler Divergence(두 분포사이의 다름을 측정)
KL(p||q)은 p에 대해서 q와 얼마나 다른지를 나타낸다. 왜 P에 대해서인지는 오른쪽 식에 처진 동그라미를 보면 알수있다. P(x) 확률분포에서 샘플링 했기 때문이다. 그리고 log의 성질에 의해서 분모,분자 위치가 바뀌고 마이너스를 제거한 표현식과도 동일하다.
P(x)라는 확률분포에서 x를 샘플링 했다고 가정하고 q1,q2 확률분포에 이를 아래처럼 표현해 볼수 있다.
x라는샘플링을 각 확률분포에 표시한 그림이다. 크기를 비교해보면 q1 > p(x) > q2 순이다.
각 분포에 log를 씌운 값을 비교하면 당연히 왼쪽 값이 더 클것이다.
하지만 맨 위에 공식은 마이너스가 붙어 있으므로 이를 적용해 보면 부호가 반대로 적용된다. 정리하면 P(x)와 가장 가까운 확률 분포는 q1인데 위 식에 의하면 값이 작으므로 값이 작을수록 P(x)와 비슷하다는 결론을 얻을수 있다. 반대로 값이 클수록 P(x)와는 다르다는 걸 알수있다.
728x90
'NLP > 패캠_자연어 입문' 카테고리의 다른 글
9.Mse Loss (0) | 2021.12.09 |
---|---|
8.Cross_entropy (0) | 2021.12.07 |
6. MAP(Maximum A Posterior) (0) | 2021.12.01 |
5. MLE 수식 (0) | 2021.11.29 |
4. MLE (0) | 2021.11.28 |