728x90

FE & data 분리를 끝마친 후 2021년 1월 데이터를 검증 데이터로 사용하여 lgb와 회귀분석 각각

돌려봤습니다. lgb 코드는 데이콘에서 공유한 코드를 사용해 봤어요 

회귀분석 결과 R^2이 1 이 나왔어요. 뭔가 잘못된 것아요; 설명력이 100%일리가 없을텐데...

target 데이터로 차분,lag,seasonal 등 적용했는데, 12월 Y데이터가 1월에 들어 갔기 때문에 그런게 아닌가 싶습니다. 

 

그런데 고민되는 점은, 단지 검증하는 목적인데 굳이 Y데이터를 변경할 필요가 있을까 였어요 

뭔가 뜬구름 잡는 것같아서 고민하다가 일단 lgb 상태는 어떤지 쭉 확인해 봤습니다.

 

lgb의 y_val값과 y_val의 pred를 시각화한 그래프 입니다. 데이콘이 제시한 평가 방식으로 점수를 계산해 봤는데 약 0.40이 나왔어요 데이콘의 베이스 코드의 점수는 8점대 였어요 

 

 

 

왼쪽은 정상성 테스트, 오른쪽은 자기상관 테스트 해본 결과입니다.

평균이 0에 집중적으로 모이고, 분산은 일정하니 당연히 정상성 데이터로 보입니다.

자기상관그래프도 다른 lag 시점과 corr값을 비교해봐도 눈에 띄게 튀는 값이 없었습니다. 

자기상관 그래프는 유의수준 범위? 갑자기 기억이 안나는데 파란색으로 범위가 그러져 있어요

그 안에 점들이 위치해 있다면 corr값은 0이라고 판단하는데 위 그래프에는 파란색 범위가 보이질 않습니다 

값이 워낙 작아서 안보이는 것일수도 있습니다. 그래서 저 시각화 그래프만으로는 자기상관이 있다 없다 판단하기엔 이릅니다. 정확한 통계치로 확인해 보겠습니다.

p-value가 0.05보다 작아서 자기상관은 있다고 나왔습니다. 

데이터는 정상성 이지만 자기상관은 있다는 것은 무슨 의미일까요 아직 여기까지는 잘 모르겠습니다;;

 

이 방향이 맞는지 고민좀 더 해봐야 할것 같아요 회귀분석 설명력이 1이라니.. 분명 뭔가 잘못된것같네요

데이터 자체가 정오가 될수록 값이 커지고 밤이 될수록 0에 가까워지는 단순한 시계열 패턴이라서 손쉽게 패턴이 뽑힌 걸까 생각도 드는데.. 

좀더 고민해 봐야 할것같습니다

728x90

+ Recent posts