728x90

오랜만에 업로드 하는 것같습니다 ㅎㅎ

간만에 진도를 나간터라 그 전까지 뭘 했는지 복습을 좀 했어요

최근에 막혔던 부분이 R값이 1 이 나온 부분이였어요 과적합 인것같은데,,

여러가지 문제를 생각해 보는데 시간을 많이 할애했던 것같아요 시계열 프로젝트를 처음 하다보니까 

계속 헷갈리더라구요 

 

Y 값을 가지고 tren,seasonal, rolling 등 FE를 진행했는데 이 값들이 validation dataset에 영향을 주었을 수도 있고,

스케일링,다중공선성을 아직 하지 않아서 그런 것일수도 있구요 

 

2021-01을 Y값을 모른다는 전제 하에 검증을 진행해 보고 있어요

실제로 제출할 6~7월달 값은 Y값이 없기때문에 미리 선행해보자는 뜻으로 진행 중입니다

그래서 1월달 값은 가장 최근인 2020년1월 값을 중복해서 사용했어요 계절성은 비슷하니까 큰~무리는 없지 않을까 생각합니다. 

 

그래서 1. 중복데이터 적용 후 성능 확인 ->  2. 스케일링 적용 후 성능 확인 -> 3. 다중공선성 제거 후 성능확인 

이 순으로 진행할 계획이고, 현재 2단계 스케일링은 마쳤습니다. 

 

스케일링 하기전 1월달 예측값과 실제값 비교 시각화
스케일링 적용 후 1월달 예측값과 실제값 비교 시각화

스케일링 적용 후 과적합 현상이 줄어서 그런지 R값도 조금 감소했어요 나름 현실성을 찾아 가는 것 같아요

1월달 값은 적용 후 값이 더 손실을 보고 있어요 아직 다중공선성이 남았는데 조금 혼란 스럽네요

파란색이 실제 값,  주황색이 예측값인데 예측값을 보면 새벽시간에 태양열 에너지가 있다고 말하고 심지어 마이너스도 있네요, ㅎㅎ;; 아직 시작단계니까 차근차근 해보도록 하겠습니다

 

 

 

728x90

+ Recent posts