본문 바로가기

Data Diary

2021-01-27 공부기록(택시수요예측)

반응형

택시 수요예측 프로젝트 전처리 부분을 진행했습니다 

날씨를 bad, normal로 변수를 추가하고 원핫인코딩을 zip_code와 함께 진행했습니다

그런데 여기 난관이 columns= 이부분 이였습니다

실습 때는 zip_code 하나라서 쉬었지만 변수 하나가 추가되니까 막히더라고요

 

pd.concat 파라미터 구글링을 해봤지만 원하는 결과를 찾지 못해서 꽤 헤매었습니다 

구글링을 멈추고 내가 원하는 형태는 뭘까 생각해 보며 이것저것 시도해 보다가 np.concatenate를 사용하니까

되더라고요 뿌~듯하고 문제 하나를 넘겼다는 생각에 숨통이 틔였습니다

#원핫인코딩
from sklearn.preprocessing import OneHotEncoder

#객체 생성
ohe= OneHotEncoder()
ohe.fit(base_df[['zip_code','wheather']])
ohe_output= ohe.transform(base_df[['zip_code','wheather']]).toarray()
ohe_df=pd.concat([base_df, pd.DataFrame(ohe_output, columns=np.concatenate([ohe.categories_[0],ohe.categories_[1]], axis=0))],axis=1)
ohe_df

 

 

이렇게 문제 하나를 통과하니까 또 다른 문제가 뙇!!!

 

iplot 사용제한이 있을 줄은 몰랐는데..  정말 생각지 못한 곳에서 문제가 생기는 게 프로그래밍의 매력이 아닐까...라는 새.. 생각.. 이.. 듭니ㄷ ㅏ  . .   으흠 

 

iplot이 깔끔하고 고급져 보여서 좋아했는데 말이죠 ㅠ 급한 대로 해당 사이트 들어가서 application을 제출하라고 하더라고요 그래서 일단은 보냈는데 결과가 어떻게 나올지는 지켜봐야 할 것 같아요

 

그리고 지금은 XGBoot를 gridSearch로 진행 중인데 지금 1시간째 돌아가고 있네요 

연산량이 많진 않은 것 같은데 말이죠.. 지금은 중단하고 내일 다시 조정해서 돌려봐야 할 것 같아요 

 

내일은 스태킹을 해보고 연관 있는 변수끼리 PCA를 통해서 차원 축소한 성능을 비교해볼 생각이긴 합니다

계획만 그렇게 잡고 있고 또 내일이 가면 어떻게 바뀔지는 내일 공부 기록에 남겨 놓겠습니다:)

 

반응형