728x90
오늘은 전에 예고했던 EDA 중 시간 별 시각화 진행과 feature engineering 중 Trend, seasonal 분리까지 진도를 나갔습니다.
지금 하고 있는 프로젝트가 실제로 대회 진행 중이라서 자세한 내용을 말하면 안될것 같아서 좀 답답한데
EDA결과 좀 의외의 사실을 알게 되었어요
태양열이 가장 쎈 여름에 에너지 수급이 가장 높을 줄 알았는데 그거 아니였더라구요
구글링을 통해 예상되는 원인을 발견했는데 꽤나 EDA 결과와 일맥상통한 걸 확인했어요 물론 다른 원인이 있을수도 있고 혹은 EDA를 잘못했을 수도 있습니다
그리고 바로 데이터 전처리 중 FE를 진행 중에 있습니다. 시계열 분해를 해서 결측치를 채웠는데..
이게 문제가 새벽대의 값은 0 인데 시계열 분해 특성상 결측값으로 비어 버렸어요
이 부분을 생각치 못해서 고민좀 했어요
새벽 시간대에는 아무 것도 없어야 할 것같은데 ffill, bfill로 채우면 정보 왜곡이 되지 않을까 하는 ..
그래서 심플하게 다 해보려고 합니다 시계열분해 적용 전/후 모델 성능을 비교하기로 결정하고 진행 중에 있습니다.
아직까지는 아주 큰~~ 어려움은 없이 진행 중입니다
728x90
'Data Diary' 카테고리의 다른 글
2021-05-05(태양열 에너지 예측4) (0) | 2021.05.05 |
---|---|
2021-05-04(업로드 관련 공지..) (0) | 2021.05.04 |
2021-04-28(딥러닝수학4_Linear Regression & Gradient Descent) (0) | 2021.04.28 |
2021-04-27(태양열 에너지 예측2) (0) | 2021.04.27 |
2021-04-26(딥러닝 수학3_Vector Chain Rule) (0) | 2021.04.26 |