2021-06-08(태양열 에너지 예측19)

tsfresh를 통한 특징추출을 시도해 봤습니다.

처음 들어보는 거라서 적용하는데 시간 좀 걸린 것같아요 특히 column_id가 어떤 역할을 하는지 몰라서 이를 어떻게 정할건지도 몰랐어요 그래서 임의로 year를 넣어 봤는데, year 변수의 수(유니크) 만큼 row가 생기고, 열이 6000개 이상 생기더라구요. 이때 직감을 했습니다. 제 계획은 변수를 뽑아서 원본에 붙이고 변수의 수를 rev or 다중공선성으로 줄일려고 했습니다. 그런데 row의 수가 id 수 만큼 생긴 걸로 보아서는 병합 조차 안되겠더라구요.

그 다음으로 시도 한게 auto_arima 입니다. 해봐야지 했던게 미루고 미뤄서 오늘 하게 되었습니다.

이것도 메모리 부족으로 중간에 끊기긴 했는데 이상한점은 그게 아니라, 분명 pdq 시작 값을 분명히 정했는데, 범위를 벗어난 값을 적용한다는 점입니다.

start_p =2 이므로 0과 1은 없어야 하는데, 아래 결과를 보면 실행이 된걸 확인할수 있습니다 ;

공식 홈페이지를 살펴봐도 그닥 잘못한게 없어 보이던데 .. ;; 어차피 메모리 때문에 이 방법도 접었습니다.

그리고 기존에 train을 predict를 하면 초반 값이 아래 이미지처럼 엄~청 크게 튑니다.

랜덤포레스트는 그러지 않는데,, 그래서 스케일링을 robust로 바꿔서 했더니 튀는 값은 사라졌습니다. 그렇지만 ...

첫번째 그림은 train, 두번째는 2021/01 validation, 그리고 마지막은 1월과 2월달 예측 값입니다. 2월달만 예측하고 싶은데 하..; 이것도 말하자면 또 길어질것같아서 패스하겠습니다 ㅠ 2월달 예측값은 복붙마냥 똑같은 패턴이 보입니다. 원인을 모르겠어요 그리고 0 밑으로 마이너스가 계속 나오는데 이것도 고칠 아이디어가 생각 나질 않네요

그래서 R의 forecast 패키지를 사용해 볼려고 교재를 보면서 적용중인데

저 부분에서 더이상 진도가 나가질 않습니다. 이~것도 원인을 모르겠습니다 ㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎ

'Data Diary' 카테고리의 다른 글

2021-06-11(R 데이터 분석_1 & 태양열 예측21 & 앞으로의 계획) (0)	2021.06.11
2021-06-09(태양열 에너지 예측20) (0)	2021.06.09
2021-06-07(태양열 에너지 예측18) (0)	2021.06.07
2021-06-05(태양열 에너지 예측17) (0)	2021.06.05
2021-06-04 기록 (0)	2021.06.04

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

H_record

2021-06-08(태양열 에너지 예측19)

'Data Diary' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

2021-06-08(태양열 에너지 예측19)

'Data Diary' 카테고리의 다른 글

'Data Diary' Related Articles

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역