728x90

오늘 택시수요예측 강의와 실습을 모두 마쳤습니다 강의 중에 google-composer가 있었는데 

솔직히 무슨 소리인지 잘 이해가 가지 않았습니다 이걸 이해하기 위해서 쓸 에너지와 시간을 생각하니까

일정에 문제가 생길것같아서 과감히 중단하고 개인 프로젝트에 먼저 집중하기로 결정했습니다 :)

 

프로젝트가 끝나고 여유가 있을 때 공부해도 늦진 않을 것 같습니다

정말 배울게 너~무 많네요 

 

전 직장에서 품질신뢰성 업무를 했었습니다 누구나 할 수 있는 업무난이도가 제게는 정신적 고통?

성취감이 없었는데 IT에 뛰어들면서 이런 배움의 신세계를 느껴보니까 

 

큰 벽을 마주하는 느낌을 받으면서도 

이걸 써먹을 줄 아는 제 모습을 생각하면 많은 동기 부여가 됩니다

 

아무튼, 나머지 시간에는 실습에서 사용한 뉴욕택시 데이터 말고 한국 택시 데이터를 사용하고 싶었어요

그래서 데이터 사이트를 2~3시간 뒤져 봤는데 역시 적당한 데이터를 구하지 못했습니다 ㅠ

 

고민을 하다가 뉴욕택시데이터를 사용하기로 결정했습니다 

이번 프로젝트는 EDA부터 차근차근 체득하고 싶어서 시간을 조금 넉넉히 잡았습니다

모빌리티 수요예측이 개인적으로 흥미로웠고, 다양한 모델을 공부하면서 여러 가지 시도를 하고 싶었습니다

 

그래서 이 블로그를 마저 다 적성하고 나서는

앞으로 진행할 프로젝트의 정의, 목적, 방법 등 나만의 길을 대략 잡아볼 생각입니다

잘 될지는 모르겠지만 많은 걱정은 잠시 접어두고! 

일단 해보겠습니다 

728x90

'Data Diary' 카테고리의 다른 글

2021-01-21 공부기록(택시수요예측)  (0) 2021.01.21
2021-01-20 공부기록(택시수요예측)  (0) 2021.01.20
2021-01-16 공부기록  (0) 2021.01.16
2021-01-15 공부기록  (0) 2021.01.15
2021-01-14 공부기록  (0) 2021.01.14
728x90

taxi 수요예측 실습을 어제에 이어서 진행했습니다 

쿼리문에 난이도가 올라가서 잠시 중단하고 한참을 구글링을 했습니다

 

함수는 이해했지만 

 

왜 이런 변수를 만들었는지는 설명이 없어서 뒤적뒤적 만져보며 이해하려 했지만 실패했습니다

이틀 뒤에 다시 시도해 보겠습니다!

데이터 다룰때는 코딩 실력도 중요하지만 내가 무엇을 할 건지를 정하는 스킬이 가장 중요한 것 같아요

 

그리고.. 아직 에러 원인조차 파악 못한 코드가 있습니다

분명.. 같은 코드인데 에러 내용이 또 바꿨네요  끄응

아까 에러 내용은 5번 줄의 x_train의  type 관한 내용이었던 걸로 기억해요 

강사님과 정말 같은 내용으로 실습하는데 말이죠 

 

이래서 팀 단위로 모여서 프로젝트를 하면 실력이 빨리 오른다는 게 이런 이유이지 않을까 하네요

피드백이 빨라야 학습을 빨리 할 수 있는데 말이죠옵

시국이 나아지면 그룹에 참가해서 프로젝트 진행해도 좋을 것 같습니다:) 

 

 

728x90

'Data Diary' 카테고리의 다른 글

2021-01-20 공부기록(택시수요예측)  (0) 2021.01.20
2021-01-19 공부기록  (0) 2021.01.19
2021-01-15 공부기록  (0) 2021.01.15
2021-01-14 공부기록  (0) 2021.01.14
2021-01-13 공부기록(토픽모델링)  (0) 2021.01.13
728x90

taxi 수요예측 실습을 계속 진행 중입니다.

남의 코드를 보고 실습하는건 정말 좋은 참고서가 되는 것같아요

 

이렇게도 할수 있구나 라는 생각을 자주하게 돼요 색다른 코드들을 보니까 코딩 실력을 좀더 창의적으로 하고 싶다는 

생각을 해봤어요 사실 한달 전쯤에

코딩테스트 준비를 할려고 책까지 사놨는데  포트폴리오가 먼저라는 교수님 말씀에 이렇게 열공하고있네요ㅎㅎ

 

만일 제가 취업을 하더라도 개인적인 호기심과 자기개발을 위해서 코딩테스트를 하지 않을까 싶어요

아 그리고 1월1일에 데이터 분석 강의(이러닝)를 신청했었는데

 

오늘 개강했다는 알람을 받았습니다 온라인으로 진행되는 수업이죠 그곳은 바로!!! 

ekoreatech 라는 사이트입니다 

 

무료 강의와 수료증 발급까지 해줍니다 저처럼 자격증이나 수료증이 필요한 분들에게는 도움이 될 것같아요

제가 줄곧 관심깊게 지켜봤던 mysql! 이 들어 있더군요 오호홓 

 

이전에는 오라클과 heidSQL(mysql)는 사용 해봤었지만 mysql는 처음 접해 봅니당 

취업 조건에 mysql이 꽤 많은 비율을 차지 하는것같아요  ㅠㅠ 

 

공부할건 너무 많은데 몸이 하나라서 너무 아쉽다는 생각이 자주 드네요

비록 몸뚱이는 하나라도 차근차근 열심히 기본을 잘 쌓아 올려보도록 노력해 볼게요

 

 

728x90

'Data Diary' 카테고리의 다른 글

2021-01-19 공부기록  (0) 2021.01.19
2021-01-16 공부기록  (0) 2021.01.16
2021-01-14 공부기록  (0) 2021.01.14
2021-01-13 공부기록(토픽모델링)  (0) 2021.01.13
2021-01-12 공부기록(토픽모델링)  (0) 2021.01.12
728x90

어제 실습에 이어서 오늘도 택시 수요예측 실습을 진행했습니다. 

원래 계획은 하루에 강의 10개씩 진도를 나가는 걸로 정했는데 

 

실습도 하고, 시행착오도 있다 보니까 겨우 2개만 진도를 나갔습니다

쿼리문은 나름 익숙해서 큰 문제는 없었지만

 

데이터 시각화(시간별, 지역별) 부분에는 조금 더 유심히 봤습니다. 제 약점? 중에 하나가 

~~ 별로 group by입니다

예를 들어 시간별, 지역별 등등

 

위처럼 간단한 문제라면 괜찮지만 문제가 복잡하게 되면 헷갈립니다 

아마 익숙하지 않아서 그런 거라 생각됩니다 

 

그리고 가장 시간을 많이 잡아먹었던 건 아래 코드입니다.

날짜를 가지고 주말을 구분해야 했는데, 날짜 함수가 머릿속에서 정리가 안되고

처음 본 것들이라서 삽질이 좀 길었습니다. 

 

시간을 더 이상 지체할 수 없어서 강의 진도를 나가던 참에 

잘못된 부분을 알아차렸습니다 내일 아침에 바로 고쳐볼 생각입니다. 

 

오랜만에 쿼리문을 다루니까 오래간만에 흥미로웠습니다! 

게다가 새로운 함수도 여러 개 알게 돼서 든든합니다 빨리 내 것으로 만들어서 내실을 다지고 싶네요

728x90

'Data Diary' 카테고리의 다른 글

2021-01-19 공부기록  (0) 2021.01.19
2021-01-16 공부기록  (0) 2021.01.16
2021-01-15 공부기록  (0) 2021.01.15
2021-01-13 공부기록(토픽모델링)  (0) 2021.01.13
2021-01-12 공부기록(토픽모델링)  (0) 2021.01.12
728x90

오전에 LDA 토픽결과를 가지고 계층 군집화를 할수 있을지 시도해 봤습니다. 강의도 들어보고 예시 코드도 봤지만 결코 쉽지 않았습니다 ;; 오후에는 taxi 수요예측 실습을 해야 했기 때문에 어쩔수 없이 책을 덮었습니다ㅠㅠ.. 

화장지가 모잘라서 제대로 못 닦고 나온 느낌처럼 매우 찝찝했습니다 

 

문서 유사도를 토픽모델링에 접목시킬려면 각 분류에 해당하는 문서들끼리 (청원글에는 '행정','정치개혁' 등 17개의 분류가 있습니다) 얼마나 유사한지 구할수는 있을것 같았지만,  그 결과가 새로운 인사이트를 주진 못할것 같아서 접었습니다. 

 

LDA에서 나온 토픽 갯수가 만일 4개라면,  각 토픽에 해당하는 단어를 하나의 객체로 만든 후 ->백터화 -> 모델 적용 하게 되면 가능하지 않을까 조심스레 생각해봅니다 아직 초보라 뭔가 맨땅에 헤딩하는 기분이라 깝깝~~합니다 :) 

 

오후에는 수요예측 실습강의를 들으면서 따라해 봤습니다.  구글 SQL을 처음 사용해 봤습니다 

다른 DBMS는 설치과정 만만치 않아서 언제나 장벽처럼 느껴졌는데 구글 SQL은 접근하기가 너무 간편해서 좋았습니다 

 

지금은 EDA과정을 하고 있는데 

강사가 다양~한 방법으로 시각화를 소개 해줍니다 

생소한 방법들이 많아서 새로웠고 또 하나 배운것같아서 좋았습니다!!

 

사실 오늘따라 집중도 잘 안되고 아침부터 계층군집 실패를 맛본터라

의욕이 다소 떨어졌습니다 ㅠ  그러다 보니

취업걱정에 한숨만 늘어지게 쉬었네요

 

오늘은 좀 일찍 마무리하고 산책도 하고 운동하면서 환기좀 시켜야 할것같습니다 :) 

728x90

'Data Diary' 카테고리의 다른 글

2021-01-19 공부기록  (0) 2021.01.19
2021-01-16 공부기록  (0) 2021.01.16
2021-01-15 공부기록  (0) 2021.01.15
2021-01-14 공부기록  (0) 2021.01.14
2021-01-12 공부기록(토픽모델링)  (0) 2021.01.12
728x90

저번주 금요일부터 시작했던 국민청권글을 가지고 토픽모델링을 진행하고 있습니다~!

원래 강의 내용은 카카오톡 분석이였지만 어떠한 이유로 인해서 카톡으로 진행을 하지 못했습니다 그래서 청원글로 대체 했습니다. 이 청원글로 토픽 모델링 한다면 주로 어떤 종류의 청원을 많이 올리는지 볼수 있을것 같아서 시작하게 되었습니다.

 

어제했던 내용을 이어 받아서 오늘도 하루 종일 여러 시도를 했지만 좀 처럼 해결이 나질 못했습니다. 

아침부터 나를 당황하게 만들었던 이 에러 문구..  어제까지만 해도 됐었잖아 ㅠ ㅠ 무슨변덕이람..ㅠㅠ   

어쩔수 없이 기존 코드를 여차저차 수정했습니다

 

오늘 진행한 내용은 아래와 같습니당~

1. 전처리

2. LDA,ATM 모델 수정

3. pyLDAavis 시각화

4. 문서 군집화

 

오늘 가장 많~이 시간을 잡아 먹은건 당연히 전처리입니다 

특히 list of list of word 에서 글자 갯수가 2이상인 word만 남기는 과정에서 고민을 좀 했습니다

 

내 생각대로라면 이 코딩이 맞는데 지속적으로 퇴짜를 맞는 바람에 이것저것 건드려 봤습니다 

그렇게 전처리를 하면 모델도 다시 돌리고

 

그런 과정을 오전,오후 동안 무한반복 했습니당 :)

 

늦은 오후에는 문서 군집화라는 걸 처음 봤습니다!!

파이썬 머신러닝 완벽가이드 라는 책인데 

좀더 좋은 생각이 없을까 뒤적뒤적 거리던 중 눈에 딱! 들어왔습니다 

 

왜냐면 ATM 실행 결과를 보니까 유사도가 비슷한 카테고리가 많더라구요

검색해 보니까 요걸 계층 군집화를 하게 되면 제 생각이 좀더 명확해 질것 같았습니다

 

그러던중 요걸 발견했습죠

비록 제가 원한 계층 군집화는 아니였지만 코딩을 따라 적으면서 

이런 방법도 있구나 ~ 또 하나를 알게 되었습니다 

위 결과가 topic=4로 했을때 문서 군집화 내용입니다.  각 군집화의 중심과 가까운 핵심 단어 10개와 카테고리를 출력한 결과입니다 이걸 딱 보는 순간 전처리를 해야겠다 싶었습니다  그래서 또 전처리를 시도 했습니다 

 

그리고 전처리를 시도 할수록 미궁속에 빠지는 느낌이였습니다 

개인적인 느낌에는 LDA 전처리 보다 이 전처리가 더 어렵게 느껴졌습니다 

 

내일부터는 다른 공부를 해야하는데 

이걸 내일 마저 할지 말지 좀더 고민을 해봐야 할것 같습니다 

728x90

'Data Diary' 카테고리의 다른 글

2021-01-19 공부기록  (0) 2021.01.19
2021-01-16 공부기록  (0) 2021.01.16
2021-01-15 공부기록  (0) 2021.01.15
2021-01-14 공부기록  (0) 2021.01.14
2021-01-13 공부기록(토픽모델링)  (0) 2021.01.13

+ Recent posts