택시 수요예측 프로젝트 전처리 부분을 진행했습니다
날씨를 bad, normal로 변수를 추가하고 원핫인코딩을 zip_code와 함께 진행했습니다
그런데 여기 난관이 columns= 이부분 이였습니다
실습 때는 zip_code 하나라서 쉬었지만 변수 하나가 추가되니까 막히더라고요
pd.concat 파라미터 구글링을 해봤지만 원하는 결과를 찾지 못해서 꽤 헤매었습니다
구글링을 멈추고 내가 원하는 형태는 뭘까 생각해 보며 이것저것 시도해 보다가 np.concatenate를 사용하니까
되더라고요 뿌~듯하고 문제 하나를 넘겼다는 생각에 숨통이 틔였습니다
#원핫인코딩
from sklearn.preprocessing import OneHotEncoder
#객체 생성
ohe= OneHotEncoder()
ohe.fit(base_df[['zip_code','wheather']])
ohe_output= ohe.transform(base_df[['zip_code','wheather']]).toarray()
ohe_df=pd.concat([base_df, pd.DataFrame(ohe_output, columns=np.concatenate([ohe.categories_[0],ohe.categories_[1]], axis=0))],axis=1)
ohe_df
이렇게 문제 하나를 통과하니까 또 다른 문제가 뙇!!!
iplot 사용제한이 있을 줄은 몰랐는데.. 정말 생각지 못한 곳에서 문제가 생기는 게 프로그래밍의 매력이 아닐까...라는 새.. 생각.. 이.. 듭니ㄷ ㅏ . . 으흠
iplot이 깔끔하고 고급져 보여서 좋아했는데 말이죠 ㅠ 급한 대로 해당 사이트 들어가서 application을 제출하라고 하더라고요 그래서 일단은 보냈는데 결과가 어떻게 나올지는 지켜봐야 할 것 같아요
그리고 지금은 XGBoot를 gridSearch로 진행 중인데 지금 1시간째 돌아가고 있네요
연산량이 많진 않은 것 같은데 말이죠.. 지금은 중단하고 내일 다시 조정해서 돌려봐야 할 것 같아요
내일은 스태킹을 해보고 연관 있는 변수끼리 PCA를 통해서 차원 축소한 성능을 비교해볼 생각이긴 합니다
계획만 그렇게 잡고 있고 또 내일이 가면 어떻게 바뀔지는 내일 공부 기록에 남겨 놓겠습니다:)
'Data Diary' 카테고리의 다른 글
2021-01-29 공부기록(택시수요예측) (0) | 2021.01.29 |
---|---|
2021-01-28 공부기록(택시수요예측) (0) | 2021.01.28 |
2015-01-26 공부기록(택시수요예측) (0) | 2021.01.26 |
2021-01-25 공부기록(택시수요예측) (0) | 2021.01.25 |
2021-01-22 공부기록(택시수요예측) (0) | 2021.01.22 |