Classification는 multinomial(다항분포)를 따른다고 가정하에 CE를 통한 minimize를 진행했다. 이산부포가 아닌 연속형 분포일 경우에는 뉴럴 네트워크의 출력이 가우시안 분포를 따른다는 가정하에 MSE가 사용되어 지고 있다. 위 그림을 통해 MSE가 유도되는 위 과정을 자세히 살펴보도록 한다.
위 식은 전 시간에 배웠듯 loglikelihood이다. 해당 값들을 모두 더한값이 최대가 되는 theta값을 찾게 된다. 부연설명하자면, log그래프는 확률이 올라갈수록 영양가가 높은 정보를 얻을수 이다. 그래서 높은 값일수록 유리한데, 이를 nagative loglikelihood 바꾸게 되면 아래처럼 변형된다.
부호가 –로 변경되면서 minimize하는 theta값을 찾게 되는 것이다. Minimize는 Gradient Descent를 통해 theta를 업데이트 하게 된다.
가우시안 분포에서의 theta, 즉 파라미터는 평균과 분산이다. 위 식 표기를 빌리자면 µ=ø, σ =ψ 이다. 즉, 가우시안을 따르는 신경망의 theta은 평균과 분포라는 점이다. 이 말은 즉슨 xi값에 따라서 평균과 분산이 변하게 된다는 점이다. 왜냐면 식 자체가 조건부이기 때문이다. Xi가 주어질 때 y의 분포를 나타낸 것이다.
그래서 x1이 나타내는 분포와, x2가 나타내는 분포는 위 처럼 다르다.
맨 위의 가우시안 PDF 마지막 줄에 나와 있는 수식에 그대로 대입을 하면 위 식처럼 표기 할 수 있다. 이때, 시그마는 제외하고 오직 평균만을 대상으로 식을 전개한다.(이유는 모르겠음) ø을 대상으로 미분하게 되면 아래와 같이 나온다.
X에 따라서 변하는 theta에 Ground Truth인 y값을 빼주는 작업, 어디서 많이 봤던 형태이다. Mse와 많이 닮아 있다. 즉, 가우시안이라는 가정하에 NLL을 적용하면 mse loss를 minimize한 것과 같은 수식을 얻을 수 있다. (단, 시그마를 무시했을 경우) 최종정리를 하자면 뉴럴 네트워크는 단순히 함수를 모사하는 것이 아니라 “확률분포”를 모사하는 것이다. 왜냐면 뉴럴 네트워크 또한 확률 분포이기 때문이다.
'NLP > 패캠_자연어 입문' 카테고리의 다른 글
10. 차원축소 (0) | 2021.12.09 |
---|---|
8.Cross_entropy (0) | 2021.12.07 |
7.Kullback (0) | 2021.12.07 |
6. MAP(Maximum A Posterior) (0) | 2021.12.01 |
5. MLE 수식 (0) | 2021.11.29 |