오랜만에 업로드 하는 것같습니다 ㅎㅎ
간만에 진도를 나간터라 그 전까지 뭘 했는지 복습을 좀 했어요
최근에 막혔던 부분이 R값이 1 이 나온 부분이였어요 과적합 인것같은데,,
여러가지 문제를 생각해 보는데 시간을 많이 할애했던 것같아요 시계열 프로젝트를 처음 하다보니까
계속 헷갈리더라구요
Y 값을 가지고 tren,seasonal, rolling 등 FE를 진행했는데 이 값들이 validation dataset에 영향을 주었을 수도 있고,
스케일링,다중공선성을 아직 하지 않아서 그런 것일수도 있구요
2021-01을 Y값을 모른다는 전제 하에 검증을 진행해 보고 있어요
실제로 제출할 6~7월달 값은 Y값이 없기때문에 미리 선행해보자는 뜻으로 진행 중입니다
그래서 1월달 값은 가장 최근인 2020년1월 값을 중복해서 사용했어요 계절성은 비슷하니까 큰~무리는 없지 않을까 생각합니다.
그래서 1. 중복데이터 적용 후 성능 확인 -> 2. 스케일링 적용 후 성능 확인 -> 3. 다중공선성 제거 후 성능확인
이 순으로 진행할 계획이고, 현재 2단계 스케일링은 마쳤습니다.
스케일링 적용 후 과적합 현상이 줄어서 그런지 R값도 조금 감소했어요 나름 현실성을 찾아 가는 것 같아요
1월달 값은 적용 후 값이 더 손실을 보고 있어요 아직 다중공선성이 남았는데 조금 혼란 스럽네요
파란색이 실제 값, 주황색이 예측값인데 예측값을 보면 새벽시간에 태양열 에너지가 있다고 말하고 심지어 마이너스도 있네요, ㅎㅎ;; 아직 시작단계니까 차근차근 해보도록 하겠습니다
'Data Diary' 카테고리의 다른 글
2021-05-14(태양열 에너지 예측6) (0) | 2021.05.14 |
---|---|
2021-05-13(딥러닝수학5_Gradient Descent2 & learning late) (0) | 2021.05.13 |
2021-05-10 업로드 공지2 (0) | 2021.05.10 |
2021-05-05(태양열 에너지 예측4) (0) | 2021.05.05 |
2021-05-04(업로드 관련 공지..) (0) | 2021.05.04 |