본문 바로가기

728x90

Data Diary

(166)
2021-05-14(태양열 에너지 예측6) 바로 지난 번에 겪었던 문제점은 회귀분석 결과 R-squared가 1이라는 점이였습니다. 그래서 스케일링과 다중공선성을 진행할 필요가 있어 보여서 실행해 보았는데요 결과는 크게 달라지지 않았습니다 일단 계수들만 봐도 상당히 부자연스러웠습니다. 태양열 에너지가 최대값이 600정도였는데 몇천 단위가 나온다는건 납득하기가 쉽지 않아 보입니다. 그 외로 다른 통계치들을 봤을때도 일관성이 떨어져서 고쳐야 할점이 많아 보입니다. 다음 시간에는 일괄적으로 적용한 스케일링 수정과 원핫인코딩을 새로 적용할 생각입니다. 그리고 시계열 분해한 정보를 빼고 순전히 기상예보 데이터만을 가지고 예측을 해보도록 재 수정을 해볼 생각입니다. 서적을 보니까 시계열 모델을 앙상블해서 예측을 또 하더라구요 이런 것도 있구나 싶었습니다 A..
2021-05-13(딥러닝수학5_Gradient Descent2 & learning late) 1. Gradient Descent 하나에 대한 세타가 아니라 2개이상의 세타를 구하게 되면 아래와 같은 과정을 거치게 된다. gradient descent를 구하는 방법은 Loss와 Cost 방법이 있다. 각각에 대하여 2차원(세타0,세타1)의 gradient를 구할수있게 된다. 이를 이용하여 gradient descent를 구하게 된다. 각각 편미분을 이용하여 최적점을 찾아가는 과정이다. 하지만 현실적인 모양은 위 시각화처럼 이쁜 모양이 아니다. 한쪽이 긴 형태를 보이는 것이 현실적인 시각화이다. 이렇게 되면 문제점이 뭐냐면 세타1,세타0에 대한 업데이트 속도 차이가 많이 나게 된다. 세타1은 초반에 빠르게 업데이트가 되고 세타0은 처음부터 천천히 업데이트가 되는 것을 볼수있다. 딥러닝에서 학습이 잘..
2021-05-12(태양열 에너지 예측5) 오랜만에 업로드 하는 것같습니다 ㅎㅎ 간만에 진도를 나간터라 그 전까지 뭘 했는지 복습을 좀 했어요 최근에 막혔던 부분이 R값이 1 이 나온 부분이였어요 과적합 인것같은데,, 여러가지 문제를 생각해 보는데 시간을 많이 할애했던 것같아요 시계열 프로젝트를 처음 하다보니까 계속 헷갈리더라구요 Y 값을 가지고 tren,seasonal, rolling 등 FE를 진행했는데 이 값들이 validation dataset에 영향을 주었을 수도 있고, 스케일링,다중공선성을 아직 하지 않아서 그런 것일수도 있구요 2021-01을 Y값을 모른다는 전제 하에 검증을 진행해 보고 있어요 실제로 제출할 6~7월달 값은 Y값이 없기때문에 미리 선행해보자는 뜻으로 진행 중입니다 그래서 1월달 값은 가장 최근인 2020년1월 값을 ..
2021-05-10 업로드 공지2 아버지의 신장이 좋지 않아서 제가 신장 공여를 할 생각이였습니다 다음주 월요일에 신장내과 정밀 검사 결과가 나오므로 그때 가서 다시 얘기 해보기로 했는데 그날이 오늘이였어요 만성신부전4기이신데 .. 병원에서는 약물치료와 식이요법으로 경과를 지켜보자고 하시더라구요 일주일간 마음고생 많았는데 결과가 석연치 않아서 마음이 놓이진 않습니다 .. 공부하면서 힘들고 지쳤었는데 건강하다라는 사실 하나 만으로 이렇게 큰 힘이 될줄 새삼 깨달았습니다 오전에 할머니가 전화하시고는 아버지 상태를 듣더니 서럽게 우셨어요.. 후.. 여간 요즘 좀 힘이 살짝 드네요 내일은 아버지 퇴원 수속 밟으러 갑니다 업로드는 빠른 시일내로 좋은 공부내용 돌아오겠습니다 감사합니다
2021-05-05(태양열 에너지 예측4) FE & data 분리를 끝마친 후 2021년 1월 데이터를 검증 데이터로 사용하여 lgb와 회귀분석 각각 돌려봤습니다. lgb 코드는 데이콘에서 공유한 코드를 사용해 봤어요 회귀분석 결과 R^2이 1 이 나왔어요. 뭔가 잘못된 것아요; 설명력이 100%일리가 없을텐데... target 데이터로 차분,lag,seasonal 등 적용했는데, 12월 Y데이터가 1월에 들어 갔기 때문에 그런게 아닌가 싶습니다. 그런데 고민되는 점은, 단지 검증하는 목적인데 굳이 Y데이터를 변경할 필요가 있을까 였어요 뭔가 뜬구름 잡는 것같아서 고민하다가 일단 lgb 상태는 어떤지 쭉 확인해 봤습니다. lgb의 y_val값과 y_val의 pred를 시각화한 그래프 입니다. 데이콘이 제시한 평가 방식으로 점수를 계산해 봤는데 약..
2021-05-04(업로드 관련 공지..) 요 근래 업로드를 못했습니다 개인적인 집안 사정 때문에 공부 진도를 제대로 나가지 못했습니다 음..;; 사실 아버지가 좀 편찮아지셔서 병원에 입원을 하셨습니다 최대한 집중해서 해볼려고 노력은 하는데 업로드를 할만큼 양질의 공부 내용은 없었어요.. 곧 있으면 검사 결과 나오시는데.. 걱정이 많이 되네요 그래도 오늘 꾸역꾸역 태양열 에너지 예측 프로젝트 진도를 조금 나갔어요 feature engineering과 data split 코드를 진행 중인데 군데군데 알 수 없는 에러가 떠서 아직 완성은 못했습니다
2021-04-29(태양열 에너지 예측3) 오늘은 전에 예고했던 EDA 중 시간 별 시각화 진행과 feature engineering 중 Trend, seasonal 분리까지 진도를 나갔습니다. 지금 하고 있는 프로젝트가 실제로 대회 진행 중이라서 자세한 내용을 말하면 안될것 같아서 좀 답답한데 EDA결과 좀 의외의 사실을 알게 되었어요 태양열이 가장 쎈 여름에 에너지 수급이 가장 높을 줄 알았는데 그거 아니였더라구요 구글링을 통해 예상되는 원인을 발견했는데 꽤나 EDA 결과와 일맥상통한 걸 확인했어요 물론 다른 원인이 있을수도 있고 혹은 EDA를 잘못했을 수도 있습니다 그리고 바로 데이터 전처리 중 FE를 진행 중에 있습니다. 시계열 분해를 해서 결측치를 채웠는데.. 이게 문제가 새벽대의 값은 0 인데 시계열 분해 특성상 결측값으로 비어 버렸어..
2021-04-28(딥러닝수학4_Linear Regression & Gradient Descent) 저번 포스팅 체인 룰에 이어서 이번 시간부터는 Linear Regression을 시작으로 포스팅하겠습니다. 1. Linear Regression? 데이터 공부하면서 참 자주 들었으면서도 잘 몰랐던 부분이지 않을까 합니다. 오늘은 딥러닝에서 Linear가 어떤 역할을 맡고 있는지 알아 보도록 하겠습니다. 딥러닝의 한 노드는 가중치*입력+bias를 계산한 뒤 활성화 함수로 넘겨줍니다. 이때 가중치*입력+bias가 바로 linear 인것이죠 linear에서 활성함수를 적용것이 위와 같으며 이를 logistic Regression. 활성함수를 제거한 것이 Linear 입니다. 2. Regression? Regression을 간략하게 정의하면 독립변수와 종속변수간의 관계를 파악하여 미래를 예측하는 방법입니다. 우..