전체 글 (219) 썸네일형 리스트형 2021-01-30 공부기록(택시수요예측) 어제 언급한 택시수요예측 딥러닝 문제점은 각 지역마다 카운트가 다른 점이었습니다 예를 들어 강남은 1시에 100건의 콜 데이터가 있지만 다른 지역은 누락된 곳이 있었죠 만일 각 지역이 같은 크기?를 갖고 있었다면 timestep를 결정하기 쉬웠을 거라 생각합니다 그러면 특정 시간을 예측하기 위해서 몇 시간 전 데이터를 일괄적으로 timestep으로 지정하면 간단할 거라 생각합니다 아무튼 각 지역마다 정보 카운트가 달랐기 때문에 가장 먼저 각 시간대별 몇 개의 데이터가 존재하는지를 확인해야 했습니다 그래서 아래 결과를 확인할 수 있었죠 년원일은 해당 시간대의 마지막 데이터의 년원일입니다 예를 들어 00:00:00의 시간을 가진 데이터는 2015-05-29일 마지막 데이터 라는 얘기가 됩니다 예상했던 대로 .. 2021-01-29 공부기록(택시수요예측) 코랩에서 택시수요예측 스태킹을 어젯밤부터 아침까지 실행하다가 사용 용량 초과로 인해 초기화가 돼... 됐습니다.. 그래서 주피터 노트북으로 실행했지만 6시간 이상이 걸리더라고요 제 노트북이 몇 년 된지라 계속하면 망가질까 걱정되다가 결국 중단했습니다 ㅠㅠ 게다가 딥러닝도 막혔습니다 LSTM 하기 위해서 데이터 셋을 만들던 중에 크기가 2 테라가 넘어서 뺀찌를 먹더군요 처음 알았습니다 딥러닝 이외에 다른 제한이 있다는 걸요 2015년도 5월 데이터만 가져왔는데 이렇게 크기가 커진 거라면 아마 원핫인코딩을 많이 늘려서 그런 것 같습니다 피처가 450개인데 여기서 몇 개를 삭제해야 할 것 같아요 게다가.. 지역별 개수가 다 다른 것 같더라고요 예를 들어 강남역 오후 8시 택시 정보는 있는데 신도림역 오후 8시.. 2021-01-28 공부기록(택시수요예측) 예정대로 PCA진행화 스태킹까지 끝마쳤습니다 XGBoost로 gridSearch를 실행하니까 역시 오래 걸리더라구요 처음부터 LIghtGBM을 했다면 더 빨리 진도를 나갈수 있었을 건데 말이죠 오늘은 막히는 오류가 있거나 하진 않았습니다! 그래서 내일은 LSTM이나 GRU같은 시계열 데이터 예측 딥러닝 모델을 사용해 볼까 해요 어떤 식으로 해야 할지는 내일 자세히 알아 볼려고합니다 여러곳을 찾아보니까 택시수요예측를 LSTM,GRU로 한 블로그를 못봐서 좀 희소성? 이 있지 않을까 생각합니다 카카오브레인팀은 30분씩 쪼개서 4시간씩 묶어 예측을 한것같더라구요 (제가 이해 하기로는) 이외에도 다른 정보를 구글링하고 참고해서 또 열심히 해보겠습니다 감사합니다:) 2021-01-27 공부기록(택시수요예측) 택시 수요예측 프로젝트 전처리 부분을 진행했습니다 날씨를 bad, normal로 변수를 추가하고 원핫인코딩을 zip_code와 함께 진행했습니다 그런데 여기 난관이 columns= 이부분 이였습니다 실습 때는 zip_code 하나라서 쉬었지만 변수 하나가 추가되니까 막히더라고요 pd.concat 파라미터 구글링을 해봤지만 원하는 결과를 찾지 못해서 꽤 헤매었습니다 구글링을 멈추고 내가 원하는 형태는 뭘까 생각해 보며 이것저것 시도해 보다가 np.concatenate를 사용하니까 되더라고요 뿌~듯하고 문제 하나를 넘겼다는 생각에 숨통이 틔였습니다 #원핫인코딩 from sklearn.preprocessing import OneHotEncoder #객체 생성 ohe= OneHotEncoder() ohe.fit.. 캐글 신용카드 사기 검출 실습( lightGBM,Smote 실습) 참고서적-파이썬 머신러닝 가이드 저번 블로그의 XGBoost, LightGBM 실습에 이어서 신용카드 사기 검출 실습을 하면서 공부를 해봤습니다~! 1. Import import os import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib os.chdir('./Data/creditcard') credit_df=pd.read_csv('creditcard.csv') #의미없는 Time 변수 제거 del credit_df['Time'] 2. 데이터 분리 #데이터프레임 복사후 데이터 가공처리 def get_train_test_split(df=None): #인자로 입력된 DataFrame의 사전 데이터 가공(T.. 2015-01-26 공부기록(택시수요예측) RNN을 적용해서 택시 수요예측을 진행하고 싶어서 계속 공부를 했습니다 케라스 창시자에게 배우는 딥러닝 책을 보면서 기온예측 실습이 있길래 쭉 훑어 봤는데 음.. 이해가 가질 않았습니다 10분마다 나오는 센서 데이터를 가지고 기온을 예측해야 하는 내용인데 책에서는 10일전 데이터로 돌아가는 lookback, 1시간마다 데이터 포인트 하나를 샘플링, 24시간이 지난 데이터가 타킷이 되는 delay 같은 개념이 나오는데 아직 제 수준으로는 저자가 어떤 의도로 이렇게 했는데 이해가 가질 않더라구요.. 그러다 보니 뒤에 내용도 당연히 모르겠고, 집중력이 흩어졌습니다 ;; 사실 이책을 보기 전 부터 평소와 다르게 계속 졸아 버려서 집중력이 좋진 않았습니다 공부를 분명 했는데 뭘 했는지 모른걸 보면 하는 둥 마는 .. 2021-01-25 공부기록(택시수요예측) 택시 수요예측에 적용할 모델을 정하기 위해서 저번 주에 이어서 앙상블 기법을 공부했습니다 Smote와 LightGBM을 기반한 신용카드 사기 검출 실습을 진행했죠 조금 많은 페이지였는데 중간마다 생각 좀 해야 할 부분들이 있어서 예상보다 진도를 많이 못 나간 것 같아요 중요한 건 진도보다는 이해가 중요하니까 이번만큼은 시간에 쫓기지 않고 임하려고 합니다 지금은 방법만을 배우고 있는 것 같아서 미완성이라는 느낌을 받습니다 내가 쓰고있는 알고리즘이 수학적으로 어떻게 연결이 되고 작동이 되는지를 알아야 비로소 속이 좀 풀릴 것 같아요 지금은 많은 기법들을 실습하고 이해하는데만 꽤 많은 시간이 걸릴 것 같더라고요 정말 많~~ 은 기법들이 있어서 깜짝 놀랐습니다 잠시 딴 얘기로 넘어갔네요; 다시 본론으로 와서 실.. 앙상블 실습(랜덤포레스트,GBM,XGBoost,LightBoost) Voting classifier import pandas as pd from sklearn.ensemble import VotingClassifier from sklearn.linear_model import LogisticRegression from sklearn.neighbors import KNeighborsClassifier from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score import seaborn as sns import matplotlib.pyplot as plt #데이터 불러오기 can.. 이전 1 ··· 23 24 25 26 27 28 다음