tsfresh를 통한 특징추출을 시도해 봤습니다.
처음 들어보는 거라서 적용하는데 시간 좀 걸린 것같아요 특히 column_id가 어떤 역할을 하는지 몰라서 이를 어떻게 정할건지도 몰랐어요 그래서 임의로 year를 넣어 봤는데, year 변수의 수(유니크) 만큼 row가 생기고, 열이 6000개 이상 생기더라구요. 이때 직감을 했습니다. 제 계획은 변수를 뽑아서 원본에 붙이고 변수의 수를 rev or 다중공선성으로 줄일려고 했습니다. 그런데 row의 수가 id 수 만큼 생긴 걸로 보아서는 병합 조차 안되겠더라구요.
그 다음으로 시도 한게 auto_arima 입니다. 해봐야지 했던게 미루고 미뤄서 오늘 하게 되었습니다.
이것도 메모리 부족으로 중간에 끊기긴 했는데 이상한점은 그게 아니라, 분명 pdq 시작 값을 분명히 정했는데, 범위를 벗어난 값을 적용한다는 점입니다.
start_p =2 이므로 0과 1은 없어야 하는데, 아래 결과를 보면 실행이 된걸 확인할수 있습니다 ;
공식 홈페이지를 살펴봐도 그닥 잘못한게 없어 보이던데 .. ;; 어차피 메모리 때문에 이 방법도 접었습니다.
그리고 기존에 train을 predict를 하면 초반 값이 아래 이미지처럼 엄~청 크게 튑니다.
랜덤포레스트는 그러지 않는데,, 그래서 스케일링을 robust로 바꿔서 했더니 튀는 값은 사라졌습니다. 그렇지만 ...
첫번째 그림은 train, 두번째는 2021/01 validation, 그리고 마지막은 1월과 2월달 예측 값입니다. 2월달만 예측하고 싶은데 하..; 이것도 말하자면 또 길어질것같아서 패스하겠습니다 ㅠ 2월달 예측값은 복붙마냥 똑같은 패턴이 보입니다. 원인을 모르겠어요 그리고 0 밑으로 마이너스가 계속 나오는데 이것도 고칠 아이디어가 생각 나질 않네요
그래서 R의 forecast 패키지를 사용해 볼려고 교재를 보면서 적용중인데
저 부분에서 더이상 진도가 나가질 않습니다. 이~것도 원인을 모르겠습니다 ㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎ
'Data Diary' 카테고리의 다른 글
2021-06-11(R 데이터 분석_1 & 태양열 예측21 & 앞으로의 계획) (0) | 2021.06.11 |
---|---|
2021-06-09(태양열 에너지 예측20) (0) | 2021.06.09 |
2021-06-07(태양열 에너지 예측18) (0) | 2021.06.07 |
2021-06-05(태양열 에너지 예측17) (0) | 2021.06.05 |
2021-06-04 기록 (0) | 2021.06.04 |