728x90

코랩에서 forecast 패키지가 깔리지 않아서 파이썬에서 옮겨 실행했습니다. 그런데 결과 값이 워낙 엉망이라서 

효용가치가 없었습니다 아마도 제가 잘못 했을 가능성이 다분한 것같은데..;; 

 

현재는 FE의 수정을 통해서 어떻게 성능을 향상시킬까 고민중에 있습니다.

rolling, decompose 등 생각 나는대로 시도 중인데 괄목할만한 내용은 없었습니다 ;

 

SARIMAX을 통해서 정상성을 확보 못하는 데이터 일수도 있어서 이런 저런 시도중 입니다.

728x90
728x90

tsfresh를 통한 특징추출을 시도해 봤습니다. 

처음 들어보는 거라서 적용하는데 시간 좀 걸린 것같아요 특히 column_id가 어떤 역할을 하는지 몰라서 이를 어떻게 정할건지도 몰랐어요 그래서 임의로 year를 넣어 봤는데, year 변수의 수(유니크) 만큼 row가 생기고, 열이 6000개 이상 생기더라구요. 이때 직감을 했습니다. 제 계획은 변수를 뽑아서 원본에 붙이고 변수의 수를 rev or 다중공선성으로 줄일려고 했습니다. 그런데 row의 수가 id 수 만큼 생긴 걸로 보아서는 병합 조차 안되겠더라구요. 

 

그 다음으로 시도 한게 auto_arima 입니다. 해봐야지 했던게 미루고 미뤄서 오늘 하게 되었습니다.

이것도 메모리 부족으로 중간에 끊기긴 했는데 이상한점은 그게 아니라,  분명 pdq 시작 값을 분명히 정했는데, 범위를 벗어난 값을 적용한다는 점입니다. 

start_p =2 이므로 0과 1은 없어야 하는데, 아래 결과를 보면 실행이 된걸 확인할수 있습니다 ;

공식 홈페이지를 살펴봐도 그닥 잘못한게 없어 보이던데 .. ;; 어차피 메모리 때문에 이 방법도 접었습니다.

 

그리고 기존에 train을 predict를 하면 초반 값이 아래 이미지처럼 엄~청 크게 튑니다.

랜덤포레스트는 그러지 않는데,, 그래서 스케일링을 robust로 바꿔서 했더니 튀는 값은 사라졌습니다. 그렇지만 ...

첫번째 그림은 train, 두번째는 2021/01 validation, 그리고 마지막은 1월과 2월달 예측 값입니다. 2월달만 예측하고 싶은데 하..; 이것도 말하자면 또 길어질것같아서 패스하겠습니다 ㅠ  2월달 예측값은 복붙마냥 똑같은 패턴이 보입니다. 원인을 모르겠어요 그리고 0 밑으로 마이너스가 계속 나오는데  이것도 고칠 아이디어가 생각 나질 않네요 

 

그래서 R의 forecast 패키지를 사용해 볼려고 교재를 보면서 적용중인데

저 부분에서 더이상 진도가 나가질 않습니다. 이~것도 원인을 모르겠습니다 ㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎ

728x90
728x90

야태가지는 파라미터를 찾기위해서 데이터중 일부만 돌렸습니다.(시간이 너무 오래 걸리고 메모리 문제때문에 축소)

그리고 나름의 최적 파리미터를 결저하고 본격적으로 원본 데이터에 딱 돌려봤는데 

다른 패턴과 함께 고난이 시작된것같아요; 역시 생각처럼 쉽게 되질 않습니다

계절성을 1회 차분한 모습입니다. 24마다 튀는 값이 보입니다. 각 포인트 마다 네개정도가 함께 튀고 있습니다. 

지금에 와서야 경우의 수를 파악하기란 비효율적인것같아서 내일은 auto.arima 를 시도하여 자동으로 파리미터를 찾아 볼까 합니다. 

주말에 책 한권을 구매 했고 오늘 도착했습니다. "실전 시계열 분석" 이라는 책인데 난이도가 확실히 높더라구요

대회 마감까지 약 한달 조금 있는데 이 기간 동안 쭉 한번 읽어 볼려고합니다.

 

오휴 6시 30부터 돌리고 있던 모델 결과가 방금 나왔네요; 파라미터 값은

order =(3,0,2), seasonal_order= (31324) 였는데, 메모리 초과 떳습니다 일단 내일은 오토아리마를 사용해서 추세 트렌드의 파라미터 부터 정해볼까 합니다. 

728x90

'Data Diary' 카테고리의 다른 글

2021-06-09(태양열 에너지 예측20)  (0) 2021.06.09
2021-06-08(태양열 에너지 예측19)  (0) 2021.06.08
2021-06-05(태양열 에너지 예측17)  (0) 2021.06.05
2021-06-04 기록  (0) 2021.06.04
2021-06-03(태양열 에너지 예측16)  (0) 2021.06.03
728x90

어쩔수 없이 수동으로 돌리고 있습니다

이게 맞는 방법인지 ㅎㅎㅎ 모르겠지만 acf, pacf 보면서 조절중인데

가자 낮게 나온 점수가 4.94 였습니다. 위 사진은 target만 고려 했을때의 결과이고

현재는 변수들까지 포함시켜서 진행중입니다.설명변수를 넣으니까 acf,pacf가 갑자기 크게 변해서

시간 좀더 걸릴것같아요

 

다른 방법을 찾아야 할것같은데 지식이 부족한 것같습니다 그래서 오늘 시계열 데이터 책을 구입했습니다 

쭉 보면서 공부도 하고, 좋은 방법이 있는지 찾아봐야겠습니다 

728x90

'Data Diary' 카테고리의 다른 글

2021-06-08(태양열 에너지 예측19)  (0) 2021.06.08
2021-06-07(태양열 에너지 예측18)  (0) 2021.06.07
2021-06-04 기록  (0) 2021.06.04
2021-06-03(태양열 에너지 예측16)  (0) 2021.06.03
2021-05-31(태양열 에너지 예측15)  (0) 2021.05.31
728x90

오늘은 태양열 에너지 SARIMAX 모델 돌리면서 자소서 & 공고를 확인했습니다.

취업시장이 확실히 안좋은게 느껴집닌다

새로운 공고가 뜨질 않고 있더라구요

 

대부분 경력직을 뽑고,, 신입은 석사급을 우대하고,, 저처럼 애매한 사람들은 취업하기가 확실히 힘든것 같습니다

그건 그렇고

 

오늘 사리마 파라미터 중 계절성을 조금 올리니까 메모리 부족이 또 떴습니다 

빠른 시일내에 어떻게 할건지 정해야 합니다.

내일까지 시도해보고 뭔가 다른 결단을 내려야 하지 않나 싶습니다.

 

728x90
728x90

6월달에 들어서 처음으로 업로드 합니다 

집안에 안좋은 일이 계속 겹쳐 일어나서.. 요근래 정신을 못차리고 있습니다 

업로드 늦은점 양해 바랍니다

 

요 근래는 SARIMAX의 파라미터를 찾는데 포커싱 하고 있습니다. for문으로 자동화 하면 메모리가 감당을 못해서

따로 돌리는데 한번 돌릴때 수십분 잡아 먹더라구요

 

그 간 변동된 점을 정리 해보면

1. target 데이터 2018~2020년도 중 2020년도 데이터만 따로 뽑았습니다 -> 메모리 부족때문에 최근 1년치에서 파라미터를 찾기 위함

 

2. 1년치 데이터에서 SARIMAX의 CV 점수는 4.97를 기록함(데이콘 베이스 코드에서의 점수는 8점대)

 

지금 고민인 점은 아래 그림처럼 acf, pacf에서 추세 파리미터는 잠잠 해졌는데 계절성 부분에서 튀는 값이 존재 한다는 것입니다. 파라미터를 늘리고는 있지만 문제점은 메모리를 점차 잡아 먹는 다는 점이죠ㅠ

지금 돌리고 있는 데이터는 1년치 뿐인데 계절성 파라미터가 높아지게 되면 원본 target데이터는 어림도 없을 것같아요

일단 시간 상 조금 쫓기는 느낌이 있는데, 하는데 까지는 최선을 다해볼려고 합니다. 

728x90
728x90

오늘도 저번 작업에 이어서 모델링 작업을 하고 있습니다.

r의 forecast 패키지를 파이썬에서 할려고 하니까 갖은 오류에 막혔습니다 

마감시간은 가까워지고.. 살짝 조급해 집니다 

target의 정상성을 아직 확보를 못했습니다. sarimax의 차분의 수, ar,ma를 조금만 높히면 메모리 부족으로 인해 

오류가 뜹니다.. 코랩pro의 메모리가 25기가 인데 말이죠;

 

acf,pacf plot을 보면 실험 하고 싶은 경우의 수가 많은데 결과를 보지 못하니까 너무 상당히 꽤 크게 안타깝습니다 

다른 모델을 적용해야 할것 같아서 ExponentialSmoothing 을 이용해 봤습니다.

이론 강의에서 살짝 배우긴 했는데 기억이 잘 나지 않더라구요 맘 같아선 재 수강을 또 하고 싶지만 급한 관계로 일단 패스했습니다.  sarimax에서 m을 24로 설정했는데, 이 평활기법에서는 24*12를 해야 가장 낮은 성능을 보였습니다.

 

점수가 9점대를 기록했습니다.(trend = None) 

데이콘의 베이스 모델 점수가 8점대였던걸 감안하면 

쓸모있는 모델인지 약간 의문이 들었습니다. (일말의 희망이였는데)

 

 

현재까지는 1위가 랜덤포레스트, 2위 LGB, 3위 ExponentialSmoothing (trend=None) 입니다.

지금 실험중인 SARIMAX 파리미터는 AR,MA 차수를 살짝 크게 높혔습니다. 혹시나해서요

728x90
728x90

어제부터 오늘까지는 부득이한 집안일 사정때문에 업로드 및 진도에 차질이 잠시 있었습니다.

조금씩 진도 나갔던 부분을 짧게나마 기록하겠습니다.

 

저번시간에는 SARIMA 파라미터에 있어서 log 전/후 결과값에 차이가 있었습니다.

그래서 log 후 SARIMA 적용을 했을때 등분산과 자기상관이 조건에 만족하는지에 대한 파라미터를 실험해 봤습니다.

실험결과 특이사항은 없었습니다. 몇 주전에 진도 나갔던 코드 내용을 보니까 트렌드 차분+계절성 차분+ log 한 값이

정상성 상태와 가장 흡사했기 때문에 그대로 SARIMA에 적용해 봤는데도 결과가 전과는 다르게 나왔습니다.  

 

정리가 필요해 보여서

version1,2를 나눠서 전처리 방식을 조금 다르게 설정했습니다. 스케일링 부분과 target의 log, 설명변수의 스케일링 등 

여러가지를 실험해 가면서 최적화를 찾아 내려고 시도 중에 있습니다.

데이콘에서 제시했던 lgb와 랜덤포레스트 모델을 사용하고 있습니다. 그런데 target의 log로 모델을 학습 시킨뒤 log reverse를 시킨 값의 시각화를 그려보면 

위와 같은 현상이 발생했습니다. 예측값이 너무 낮게 잡히고 있더라구요. 현재 원인을 조사?중에 있습니다

내일도 짧게나마 진도가 나갈 것 같습니다.. 

내일 학습 내용으로 다시 업로드 올리겠습니다.

 

728x90

+ Recent posts