728x90

오늘은 아주 큰 뻘짓을 했습니다

블로그에 적기가 창피 한데..; 

기존에는 Y에 대해서 FE를 진행한 후 기존 데이터프레임과 병합을 시켰었는데..

오늘은 X데이터에 대해서 lag 값을 넣었습니다 ㅎㅎ;

 

제 의도는 

1 혹은 2시간 전의 온도 데이터가 영향을 줄수 있을거라 생각했어요

그러면 온도 데이터를 lag 값을 넣어보자고 단순하게 생각했어요

그렇게 계산해 보니까 다중공선성이더라구요 

성능도 더 나빠졌습니다 ㅠ ;; 

 

그러면 

제 의도에 맞게끔 x데이터를 추가할려면 어떻게 해야하는지 곰곰이 생각해 봤는데 

lag 값만한게 없더라구요 

시계열 초보라서 엉키는 부분이 많아요 생각보다 시계열데이터 다루기가 정말 까다로운 것같아요

 

그래서 처음부터 돌아갔습니다 

원래 하던것 처럼 FE를 진행했고(nan 채우는 방식을 수정해 가면서) 스케일링을 했다가 안했다가, 

특정 변수만 스케일링을 시도했다가 실패 했구요

스케일링은 데이콘 경진대회 서적을 보니까 모두 진행을 안했더라구요 저자 분들도 스케일링을 분명 시도했었을텐데 성능이 그닥 좋지는 않았나 봐요 

 

스케일링 부분에서 한참 고민 하다가 일단 보류하고, 

target 데이터의 정상성 변환을 진행하고 있습니다. 기존 log값 취하기 전 상태는 아래와 같습니다

 

추세 통계량은 정상으로 나왔고, 계절성 통계량은 비정상, 마지막 시각화를 그려봤는데 계절성이 강하게 보여서 비정상 입니다. 주어진 target 데이터는 추세는 없지만 계절성 패턴만 있는 것 같아요 

그래서 다음엔 비정상을 정상성으로 만든 후 모델을 돌려보고, 스케일링을 다시 수정해볼 생각입니다. 

 

추가로 검증 데이터로 1월을 사용했는데, 그 전과 다른 점은 

1월의 설명변수 중 일기예보와 날짜를 제외한 모든 데이터는 2020년도 1월 데이터를 그대로 중복시켜서 테스트 중입니다. 이 설정이 제가 나중에 예측 해야할 것들과 같은 환경이기 때문입니다 

 

내일은 딥러닝 수학 공부를 할 계획입니다.

중간에 어디좀 갔다 와야 해서 많은 진도는 못뺄것같지만 넓지 못한 대신 깊은 내용으로 다시 업로드 하겠습니다.

728x90

+ Recent posts