전체 글 (219) 썸네일형 리스트형 9.Mse Loss Classification는 multinomial(다항분포)를 따른다고 가정하에 CE를 통한 minimize를 진행했다. 이산부포가 아닌 연속형 분포일 경우에는 뉴럴 네트워크의 출력이 가우시안 분포를 따른다는 가정하에 MSE가 사용되어 지고 있다. 위 그림을 통해 MSE가 유도되는 위 과정을 자세히 살펴보도록 한다. 위 식은 전 시간에 배웠듯 loglikelihood이다. 해당 값들을 모두 더한값이 최대가 되는 theta값을 찾게 된다. 부연설명하자면, log그래프는 확률이 올라갈수록 영양가가 높은 정보를 얻을수 이다. 그래서 높은 값일수록 유리한데, 이를 nagative loglikelihood 바꾸게 되면 아래처럼 변형된다. 부호가 –로 변경되면서 minimize하는 theta값을 찾게 되는 것이다... 211207_자연어 입문편(Cross Entropy) 2021.12.07 - [NLP/패캠_자연어 입문] - 8.Cross_entropy 8.Cross_entropy 어떻게 하면 최소의 바이트를 사용하면서 정보를 전달할수 있을까?의 연구에서 출발했다.( 정보가 높다 = 불확실성이 높다.) P(X)라는 확률분포에 –log를 붙여주면 X라는 변수에 대한 정보라고 표 ghdrldud329.tistory.com 211204_자연어 입문편(Kullback) 2021.12.07 - [NLP/패캠_자연어 입문] - 7.Kullback 7.Kullback KullbackLeibler Divergence(두 분포사이의 다름을 측정) KL(p||q)은 p에 대해서 q와 얼마나 다른지를 나타낸다. 왜 P에 대해서인지는 오른쪽 식에 처진 동그라미를 보면 알수있다. P(x) 확률분포에서 샘플 ghdrldud329.tistory.com 211201_자연어 입문편(MAP) 2021.12.01 - [NLP/패캠_자연어 입문] - 6. MAP(Maximum A Posterior) 6. MAP(Maximum A Posterior) Maximum A Posterior(MAP) D는 datset를 뜻하고, h는 가정,가설을 뜻한다. 즉, 데이터가 주어 졌을 때 그 데이터에 대한 가설을 얘기하는 것이다. MLE는 likelihood를 maximize하는 방법이다. 마찬가지로 것처럼 h. ghdrldud329.tistory.com 8.Cross_entropy 어떻게 하면 최소의 바이트를 사용하면서 정보를 전달할수 있을까?의 연구에서 출발했다.( 정보가 높다 = 불확실성이 높다.) P(X)라는 확률분포에 –log를 붙여주면 X라는 변수에 대한 정보라고 표현 할수 있다. 확률이 1에 가깝게 올라 갈수록 값이 내려가고, 확률이 0에 가까울수록 값이 무한대로 커진다. 그래서 “영희는 내일 밥을 먹을 확률이 높다”라고 할 때, 당연히 밥을 먹으므로 밥 먹을 확률은 거의 99% 일 것이다. 이때 우리가 얻을 수 있는 값은 0에 가깝다는 것이다. 이해하기 편하게 의역을 하자면 영양가 있는 정보가 아니다. 영양가가 0이다 라는 뜻이고. 그 반대로 불확실할수록 새롭게 알게된 정보일 것이므로 영양가가 높을것이다. 그래서 값(영양가)이 커진다. P라는 분포의 entropy = .. 7.Kullback KullbackLeibler Divergence(두 분포사이의 다름을 측정) KL(p||q)은 p에 대해서 q와 얼마나 다른지를 나타낸다. 왜 P에 대해서인지는 오른쪽 식에 처진 동그라미를 보면 알수있다. P(x) 확률분포에서 샘플링 했기 때문이다. 그리고 log의 성질에 의해서 분모,분자 위치가 바뀌고 마이너스를 제거한 표현식과도 동일하다. P(x)라는 확률분포에서 x를 샘플링 했다고 가정하고 q1,q2 확률분포에 이를 아래처럼 표현해 볼수 있다. x라는샘플링을 각 확률분포에 표시한 그림이다. 크기를 비교해보면 q1 > p(x) > q2 순이다. 각 분포에 log를 씌운 값을 비교하면 당연히 왼쪽 값이 더 클것이다. 하지만 맨 위에 공식은 마이너스가 붙어 있으므로 이를 적용해 보면 부호가 반대로 적용.. 6. MAP(Maximum A Posterior) Maximum A Posterior(MAP) D는 datset를 뜻하고, h는 가정,가설을 뜻한다. 즉, 데이터가 주어 졌을 때 그 데이터에 대한 가설을 얘기하는 것이다. MLE는 likelihood를 maximize하는 방법이다. 마찬가지로 것처럼 h값을 maximize하는 즉, 데이터가 주어 졌을 때 Posterior를 maximize할수있다. 그래서 이번 글에서는 Posterior를 maximize해서 h값을 찾는 방법에 대해서 알아본다. X 값이 240일 때 남자일까? 여자일까?를 묻고 있다. 이때 우리는 쉽게 정답을 내린다. 240이면 대부분 여자다. 이 생각이 바로 가능도 확률이다. 우리도 모르는 사이에 가능도를 재고 있었던 것이다. 아래 이미지를 통해 보도록 한다. 첫번째) y가 남자일 때 .. 211129_자연어 입문편(MLE 수식) 2021.11.29 - [NLP/패캠_자연어 입문] - 5. MLE 수식 5. MLE 수식 수식 MLE 위 수식에 대해서 자세히 알아보자. P(x)라는 알고자 하는 확률분포에서 x,y data를 샘플링하여 모은 데이터로 파라미터를 찾고자 한다. 이때, 이 파라미터는 상황에 따라 다르다. 가우시안 ghdrldud329.tistory.com 이전 1 2 3 4 5 ··· 28 다음