728x90

tsfresh를 통한 특징추출을 시도해 봤습니다. 

처음 들어보는 거라서 적용하는데 시간 좀 걸린 것같아요 특히 column_id가 어떤 역할을 하는지 몰라서 이를 어떻게 정할건지도 몰랐어요 그래서 임의로 year를 넣어 봤는데, year 변수의 수(유니크) 만큼 row가 생기고, 열이 6000개 이상 생기더라구요. 이때 직감을 했습니다. 제 계획은 변수를 뽑아서 원본에 붙이고 변수의 수를 rev or 다중공선성으로 줄일려고 했습니다. 그런데 row의 수가 id 수 만큼 생긴 걸로 보아서는 병합 조차 안되겠더라구요. 

 

그 다음으로 시도 한게 auto_arima 입니다. 해봐야지 했던게 미루고 미뤄서 오늘 하게 되었습니다.

이것도 메모리 부족으로 중간에 끊기긴 했는데 이상한점은 그게 아니라,  분명 pdq 시작 값을 분명히 정했는데, 범위를 벗어난 값을 적용한다는 점입니다. 

start_p =2 이므로 0과 1은 없어야 하는데, 아래 결과를 보면 실행이 된걸 확인할수 있습니다 ;

공식 홈페이지를 살펴봐도 그닥 잘못한게 없어 보이던데 .. ;; 어차피 메모리 때문에 이 방법도 접었습니다.

 

그리고 기존에 train을 predict를 하면 초반 값이 아래 이미지처럼 엄~청 크게 튑니다.

랜덤포레스트는 그러지 않는데,, 그래서 스케일링을 robust로 바꿔서 했더니 튀는 값은 사라졌습니다. 그렇지만 ...

첫번째 그림은 train, 두번째는 2021/01 validation, 그리고 마지막은 1월과 2월달 예측 값입니다. 2월달만 예측하고 싶은데 하..; 이것도 말하자면 또 길어질것같아서 패스하겠습니다 ㅠ  2월달 예측값은 복붙마냥 똑같은 패턴이 보입니다. 원인을 모르겠어요 그리고 0 밑으로 마이너스가 계속 나오는데  이것도 고칠 아이디어가 생각 나질 않네요 

 

그래서 R의 forecast 패키지를 사용해 볼려고 교재를 보면서 적용중인데

저 부분에서 더이상 진도가 나가질 않습니다. 이~것도 원인을 모르겠습니다 ㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎ

728x90

+ Recent posts