NLP/스터디연구 (1) 썸네일형 리스트형 문장 유사도(1) 개요 대화체 문장간의 유사도를 구하여 추천 알고리즘으로 만들기 위한 목적으로 스터디 하고 있습니다. 임베딩는 크게 단어임베딩 VS 문장임베딩으로 나눌수가 있습니다. 단어임베딩은 각 단어에 대해서 vector 진행 후 유사도를 구하는데 이에 단점은 문맥을 고려 하지 않는다는 점이다. 문맥을 포함한 임베딩을 만들기 위해서 문장임베딩이 사용이 되는데, 여기에는 Doc2vec 혹은 Transformer과 같은 딥러닝의 임베딩을 예로 들수가 있다. 필자는 Word2vec(단어임베딩)를 사용하여 문장 전체 임베딩을 구하는 sentence2vec을 사용하여 실험해 보았습니다. 자세한 코드 내용은 https://github.com/stanleyfok/sentence2vec 에서 볼수 있습니다. 사용된 데이터는 유튜브 .. 이전 1 다음