본문 바로가기

728x90

Data Diary

(166)
2021-06-09(태양열 에너지 예측20) 코랩에서 forecast 패키지가 깔리지 않아서 파이썬에서 옮겨 실행했습니다. 그런데 결과 값이 워낙 엉망이라서 효용가치가 없었습니다 아마도 제가 잘못 했을 가능성이 다분한 것같은데..;; 현재는 FE의 수정을 통해서 어떻게 성능을 향상시킬까 고민중에 있습니다. rolling, decompose 등 생각 나는대로 시도 중인데 괄목할만한 내용은 없었습니다 ; SARIMAX을 통해서 정상성을 확보 못하는 데이터 일수도 있어서 이런 저런 시도중 입니다.
2021-06-08(태양열 에너지 예측19) tsfresh를 통한 특징추출을 시도해 봤습니다. 처음 들어보는 거라서 적용하는데 시간 좀 걸린 것같아요 특히 column_id가 어떤 역할을 하는지 몰라서 이를 어떻게 정할건지도 몰랐어요 그래서 임의로 year를 넣어 봤는데, year 변수의 수(유니크) 만큼 row가 생기고, 열이 6000개 이상 생기더라구요. 이때 직감을 했습니다. 제 계획은 변수를 뽑아서 원본에 붙이고 변수의 수를 rev or 다중공선성으로 줄일려고 했습니다. 그런데 row의 수가 id 수 만큼 생긴 걸로 보아서는 병합 조차 안되겠더라구요. 그 다음으로 시도 한게 auto_arima 입니다. 해봐야지 했던게 미루고 미뤄서 오늘 하게 되었습니다. 이것도 메모리 부족으로 중간에 끊기긴 했는데 이상한점은 그게 아니라, 분명 pdq 시작..
2021-06-07(태양열 에너지 예측18) 야태가지는 파라미터를 찾기위해서 데이터중 일부만 돌렸습니다.(시간이 너무 오래 걸리고 메모리 문제때문에 축소) 그리고 나름의 최적 파리미터를 결저하고 본격적으로 원본 데이터에 딱 돌려봤는데 다른 패턴과 함께 고난이 시작된것같아요; 역시 생각처럼 쉽게 되질 않습니다 계절성을 1회 차분한 모습입니다. 24마다 튀는 값이 보입니다. 각 포인트 마다 네개정도가 함께 튀고 있습니다. 지금에 와서야 경우의 수를 파악하기란 비효율적인것같아서 내일은 auto.arima 를 시도하여 자동으로 파리미터를 찾아 볼까 합니다. 주말에 책 한권을 구매 했고 오늘 도착했습니다. "실전 시계열 분석" 이라는 책인데 난이도가 확실히 높더라구요 대회 마감까지 약 한달 조금 있는데 이 기간 동안 쭉 한번 읽어 볼려고합니다. 오휴 6시 ..
2021-06-05(태양열 에너지 예측17) 어쩔수 없이 수동으로 돌리고 있습니다 이게 맞는 방법인지 ㅎㅎㅎ 모르겠지만 acf, pacf 보면서 조절중인데 가자 낮게 나온 점수가 4.94 였습니다. 위 사진은 target만 고려 했을때의 결과이고 현재는 변수들까지 포함시켜서 진행중입니다.설명변수를 넣으니까 acf,pacf가 갑자기 크게 변해서 시간 좀더 걸릴것같아요 다른 방법을 찾아야 할것같은데 지식이 부족한 것같습니다 그래서 오늘 시계열 데이터 책을 구입했습니다 쭉 보면서 공부도 하고, 좋은 방법이 있는지 찾아봐야겠습니다
2021-06-04 기록 오늘은 태양열 에너지 SARIMAX 모델 돌리면서 자소서 & 공고를 확인했습니다. 취업시장이 확실히 안좋은게 느껴집닌다 새로운 공고가 뜨질 않고 있더라구요 대부분 경력직을 뽑고,, 신입은 석사급을 우대하고,, 저처럼 애매한 사람들은 취업하기가 확실히 힘든것 같습니다 그건 그렇고 오늘 사리마 파라미터 중 계절성을 조금 올리니까 메모리 부족이 또 떴습니다 빠른 시일내에 어떻게 할건지 정해야 합니다. 내일까지 시도해보고 뭔가 다른 결단을 내려야 하지 않나 싶습니다.
2021-06-03(태양열 에너지 예측16) 6월달에 들어서 처음으로 업로드 합니다 집안에 안좋은 일이 계속 겹쳐 일어나서.. 요근래 정신을 못차리고 있습니다 업로드 늦은점 양해 바랍니다 요 근래는 SARIMAX의 파라미터를 찾는데 포커싱 하고 있습니다. for문으로 자동화 하면 메모리가 감당을 못해서 따로 돌리는데 한번 돌릴때 수십분 잡아 먹더라구요 그 간 변동된 점을 정리 해보면 1. target 데이터 2018~2020년도 중 2020년도 데이터만 따로 뽑았습니다 -> 메모리 부족때문에 최근 1년치에서 파라미터를 찾기 위함 2. 1년치 데이터에서 SARIMAX의 CV 점수는 4.97를 기록함(데이콘 베이스 코드에서의 점수는 8점대) 지금 고민인 점은 아래 그림처럼 acf, pacf에서 추세 파리미터는 잠잠 해졌는데 계절성 부분에서 튀는 값이 ..
2021-05-31(태양열 에너지 예측15) 오늘도 저번 작업에 이어서 모델링 작업을 하고 있습니다. r의 forecast 패키지를 파이썬에서 할려고 하니까 갖은 오류에 막혔습니다 마감시간은 가까워지고.. 살짝 조급해 집니다 target의 정상성을 아직 확보를 못했습니다. sarimax의 차분의 수, ar,ma를 조금만 높히면 메모리 부족으로 인해 오류가 뜹니다.. 코랩pro의 메모리가 25기가 인데 말이죠; acf,pacf plot을 보면 실험 하고 싶은 경우의 수가 많은데 결과를 보지 못하니까 너무 상당히 꽤 크게 안타깝습니다 다른 모델을 적용해야 할것 같아서 ExponentialSmoothing 을 이용해 봤습니다. 이론 강의에서 살짝 배우긴 했는데 기억이 잘 나지 않더라구요 맘 같아선 재 수강을 또 하고 싶지만 급한 관계로 일단 패스했습니다..
2021-05-27~8(태양열 에너지 예측13,14) 어제부터 오늘까지는 부득이한 집안일 사정때문에 업로드 및 진도에 차질이 잠시 있었습니다. 조금씩 진도 나갔던 부분을 짧게나마 기록하겠습니다. 저번시간에는 SARIMA 파라미터에 있어서 log 전/후 결과값에 차이가 있었습니다. 그래서 log 후 SARIMA 적용을 했을때 등분산과 자기상관이 조건에 만족하는지에 대한 파라미터를 실험해 봤습니다. 실험결과 특이사항은 없었습니다. 몇 주전에 진도 나갔던 코드 내용을 보니까 트렌드 차분+계절성 차분+ log 한 값이 정상성 상태와 가장 흡사했기 때문에 그대로 SARIMA에 적용해 봤는데도 결과가 전과는 다르게 나왔습니다. 정리가 필요해 보여서 version1,2를 나눠서 전처리 방식을 조금 다르게 설정했습니다. 스케일링 부분과 target의 log, 설명변수의 ..