저번주 금요일부터 시작했던 국민청권글을 가지고 토픽모델링을 진행하고 있습니다~!
원래 강의 내용은 카카오톡 분석이였지만 어떠한 이유로 인해서 카톡으로 진행을 하지 못했습니다 그래서 청원글로 대체 했습니다. 이 청원글로 토픽 모델링 한다면 주로 어떤 종류의 청원을 많이 올리는지 볼수 있을것 같아서 시작하게 되었습니다.
어제했던 내용을 이어 받아서 오늘도 하루 종일 여러 시도를 했지만 좀 처럼 해결이 나질 못했습니다.
아침부터 나를 당황하게 만들었던 이 에러 문구.. 어제까지만 해도 됐었잖아 ㅠ ㅠ 무슨변덕이람..ㅠㅠ
어쩔수 없이 기존 코드를 여차저차 수정했습니다
오늘 진행한 내용은 아래와 같습니당~
1. 전처리
2. LDA,ATM 모델 수정
3. pyLDAavis 시각화
4. 문서 군집화
오늘 가장 많~이 시간을 잡아 먹은건 당연히 전처리입니다
특히 list of list of word 에서 글자 갯수가 2이상인 word만 남기는 과정에서 고민을 좀 했습니다
내 생각대로라면 이 코딩이 맞는데 지속적으로 퇴짜를 맞는 바람에 이것저것 건드려 봤습니다
그렇게 전처리를 하면 모델도 다시 돌리고
그런 과정을 오전,오후 동안 무한반복 했습니당 :)
늦은 오후에는 문서 군집화라는 걸 처음 봤습니다!!
파이썬 머신러닝 완벽가이드 라는 책인데
좀더 좋은 생각이 없을까 뒤적뒤적 거리던 중 눈에 딱! 들어왔습니다
왜냐면 ATM 실행 결과를 보니까 유사도가 비슷한 카테고리가 많더라구요
검색해 보니까 요걸 계층 군집화를 하게 되면 제 생각이 좀더 명확해 질것 같았습니다
그러던중 요걸 발견했습죠
비록 제가 원한 계층 군집화는 아니였지만 코딩을 따라 적으면서
이런 방법도 있구나 ~ 또 하나를 알게 되었습니다
위 결과가 topic=4로 했을때 문서 군집화 내용입니다. 각 군집화의 중심과 가까운 핵심 단어 10개와 카테고리를 출력한 결과입니다 이걸 딱 보는 순간 전처리를 해야겠다 싶었습니다 그래서 또 전처리를 시도 했습니다
그리고 전처리를 시도 할수록 미궁속에 빠지는 느낌이였습니다
개인적인 느낌에는 LDA 전처리 보다 이 전처리가 더 어렵게 느껴졌습니다
내일부터는 다른 공부를 해야하는데
이걸 내일 마저 할지 말지 좀더 고민을 해봐야 할것 같습니다
'Data Diary' 카테고리의 다른 글
2021-01-19 공부기록 (0) | 2021.01.19 |
---|---|
2021-01-16 공부기록 (0) | 2021.01.16 |
2021-01-15 공부기록 (0) | 2021.01.15 |
2021-01-14 공부기록 (0) | 2021.01.14 |
2021-01-13 공부기록(토픽모델링) (0) | 2021.01.13 |