본문 바로가기

728x90

전체 글

(219)
2021-01-22 공부기록(택시수요예측) 택시 수요예측 시각화를 끝냈습니다 다만 에러가 한 가지 발생했는데 이 에러는 강사와 똑같은 코드인데도 불구하고 발생한 에러 현상입니다 도저히 이유를 알 수가 없었습니다 plt.figure(figsize=(16,6)) sns.boxplot(x='hour', y='cnt', data=base_df3) 참고로 base_df3은 아래와 같습니다 제 생각엔 y축 cnt 맨 하단에 박스가 있는걸로 봤을 때 전체를 대상으로 계산된 박스가 아니라 특정 몇개만을 가지고 박스가 계산된 걸로 생각됩니다 일단 이 문제를 뒤로하고 모델을 어떤걸 써야 할지 고민하다가 파이썬 머신러닝 완벽 가이드 책을 보면서 앙상블 기법을 공부했습니다 평소에 XGBoost, LightGBM에 관심이 있었던 터라(캐글에서 유명한 모델이라는 소문을 ..
2021-01-21 공부기록(택시수요예측) 어제에 이어서 시각화를 진행했습니다~ 크게 막히는 것은 없었지만 생각을 많이 해야 했던 부분이 있었습니다 바로 데이터의 의미를 파악하는 것이죠 시각화를 해도 무슨말인지 어떤 의미를 가지는지 모른다면 말짱 도루묵 이니까요 그래서 제 나름대로 좀 생각정리하는데 시간이 좀 걸렸죠 한 가지 특이한 점이 택시 운행 거리가 증가를 하는데 비용이 그만큼 들지 않았다는 겁니다 장거리 운행을 하게 되면 당연히 비용이 많이 오를 텐데... 그 반대 현상이 일어났죠 상관관계도 0.07을 보였습니다 상당히 의아했고 좀 충격이었어요 이게 무슨 일인가 싶어서 뉴욕 택시 요금이나 구글링을 해봤는데 확실한 근거는 못 찾았답니다 새로운 발견을 한 것 같아서 재미있었고 흥미로웠습니다 빨리 데이터를 능숙히 다뤄서 재미있게 회사에 다니고 ..
2021-01-20 공부기록(택시수요예측) 오늘은 뉴욕 택시 수요예측 프로젝트를 시작한 첫날입니다. 실습할 때는 1시간 단위로 잘라서 했습니다. 함수가 hour 단위가 있기 때문에 편하게 했는데 30분 단위로 짜르려고하니까 식은땀이 났습니다. 크게 어렵지 않을 거라고 직감했던 부분에서 크게 뒤통수를 맞은 기분이었습니다. 구글링을 열심히 해봤지만 빅쿼리의 30분 단위로 자르는 예시가 없었지만 문법은 비슷하기 때문에 적용해보려고 노력했지만 이해를 못했습니다 sql 고수가 달아놓은 답변인 듯 질문자의 질문 내용조차 잘 이해가 되질 않았죠 :~| 그렇게 구글링만 2시간이 넘은 시점에서 이러다가 하루종일 삽질만 할 것 같은 느낌이 들어서 일단 부딪혀 보는 작전으로 생각을 바꿨습니다 위 코드가 어찌 저찌 해서 만든 첫 쿼리였습니다. 희망을 품고 실행을 눌렀..
2021-01-19 공부기록 오늘 택시수요예측 강의와 실습을 모두 마쳤습니다 강의 중에 google-composer가 있었는데 솔직히 무슨 소리인지 잘 이해가 가지 않았습니다 이걸 이해하기 위해서 쓸 에너지와 시간을 생각하니까 일정에 문제가 생길것같아서 과감히 중단하고 개인 프로젝트에 먼저 집중하기로 결정했습니다 :) 프로젝트가 끝나고 여유가 있을 때 공부해도 늦진 않을 것 같습니다 정말 배울게 너~무 많네요 전 직장에서 품질신뢰성 업무를 했었습니다 누구나 할 수 있는 업무난이도가 제게는 정신적 고통? 성취감이 없었는데 IT에 뛰어들면서 이런 배움의 신세계를 느껴보니까 큰 벽을 마주하는 느낌을 받으면서도 이걸 써먹을 줄 아는 제 모습을 생각하면 많은 동기 부여가 됩니다 아무튼, 나머지 시간에는 실습에서 사용한 뉴욕택시 데이터 말고 ..
국민청원글 토픽모델링 국민청원글을 대상으로 토픽모델링을 진행했습니다. 첫번째로 LDA를 활용하여 토픽모델링 함으로써 공통적인 속성을 알고자 했습니다 두번째로 ATM은 카테고리별 문서주제 분포를 파악하여 유사도를 분석해 보고자 했습니다 corab url Google Colaboratory colab.research.google.com 1. import/ 파일 불러오기 2. 텍스트 전처리 전 시각화 >각 청원글을 공백 기준으로 단어로 만듭니다 >공백으로 잘라준 total_tokens의 빈도를 확인합니다 > 전처리 전 청원글의 빈도 그래프 입니다. 보다시피 유의미한 의미를 찾기 힘들기 때문에 명사만을 추출하여 진행했습니다. 3. 텍스트 전처리 후 시각화 전처리 과정에 앞서서 먼저 author2doc를 만들어 줍니다 (전처리 후에 ..
2021-01-16 공부기록 taxi 수요예측 실습을 어제에 이어서 진행했습니다 쿼리문에 난이도가 올라가서 잠시 중단하고 한참을 구글링을 했습니다 함수는 이해했지만 왜 이런 변수를 만들었는지는 설명이 없어서 뒤적뒤적 만져보며 이해하려 했지만 실패했습니다 이틀 뒤에 다시 시도해 보겠습니다! 데이터 다룰때는 코딩 실력도 중요하지만 내가 무엇을 할 건지를 정하는 스킬이 가장 중요한 것 같아요 그리고.. 아직 에러 원인조차 파악 못한 코드가 있습니다 분명.. 같은 코드인데 에러 내용이 또 바꿨네요 끄응 아까 에러 내용은 5번 줄의 x_train의 type 관한 내용이었던 걸로 기억해요 강사님과 정말 같은 내용으로 실습하는데 말이죠 이래서 팀 단위로 모여서 프로젝트를 하면 실력이 빨리 오른다는 게 이런 이유이지 않을까 하네요 피드백이 빨라야..
2021-01-15 공부기록 taxi 수요예측 실습을 계속 진행 중입니다. 남의 코드를 보고 실습하는건 정말 좋은 참고서가 되는 것같아요 이렇게도 할수 있구나 라는 생각을 자주하게 돼요 색다른 코드들을 보니까 코딩 실력을 좀더 창의적으로 하고 싶다는 생각을 해봤어요 사실 한달 전쯤에 코딩테스트 준비를 할려고 책까지 사놨는데 포트폴리오가 먼저라는 교수님 말씀에 이렇게 열공하고있네요ㅎㅎ 만일 제가 취업을 하더라도 개인적인 호기심과 자기개발을 위해서 코딩테스트를 하지 않을까 싶어요 아 그리고 1월1일에 데이터 분석 강의(이러닝)를 신청했었는데 오늘 개강했다는 알람을 받았습니다 온라인으로 진행되는 수업이죠 그곳은 바로!!! ekoreatech 라는 사이트입니다 무료 강의와 수료증 발급까지 해줍니다 저처럼 자격증이나 수료증이 필요한 분들에게..
2021-01-14 공부기록 어제 실습에 이어서 오늘도 택시 수요예측 실습을 진행했습니다. 원래 계획은 하루에 강의 10개씩 진도를 나가는 걸로 정했는데 실습도 하고, 시행착오도 있다 보니까 겨우 2개만 진도를 나갔습니다 쿼리문은 나름 익숙해서 큰 문제는 없었지만 데이터 시각화(시간별, 지역별) 부분에는 조금 더 유심히 봤습니다. 제 약점? 중에 하나가 ~~ 별로 group by입니다 예를 들어 시간별, 지역별 등등 위처럼 간단한 문제라면 괜찮지만 문제가 복잡하게 되면 헷갈립니다 아마 익숙하지 않아서 그런 거라 생각됩니다 그리고 가장 시간을 많이 잡아먹었던 건 아래 코드입니다. 날짜를 가지고 주말을 구분해야 했는데, 날짜 함수가 머릿속에서 정리가 안되고 처음 본 것들이라서 삽질이 좀 길었습니다. 시간을 더 이상 지체할 수 없어서 강..