본문 바로가기

728x90

전체 글

(219)
2021-05-12(태양열 에너지 예측5) 오랜만에 업로드 하는 것같습니다 ㅎㅎ 간만에 진도를 나간터라 그 전까지 뭘 했는지 복습을 좀 했어요 최근에 막혔던 부분이 R값이 1 이 나온 부분이였어요 과적합 인것같은데,, 여러가지 문제를 생각해 보는데 시간을 많이 할애했던 것같아요 시계열 프로젝트를 처음 하다보니까 계속 헷갈리더라구요 Y 값을 가지고 tren,seasonal, rolling 등 FE를 진행했는데 이 값들이 validation dataset에 영향을 주었을 수도 있고, 스케일링,다중공선성을 아직 하지 않아서 그런 것일수도 있구요 2021-01을 Y값을 모른다는 전제 하에 검증을 진행해 보고 있어요 실제로 제출할 6~7월달 값은 Y값이 없기때문에 미리 선행해보자는 뜻으로 진행 중입니다 그래서 1월달 값은 가장 최근인 2020년1월 값을 ..
2021-05-10 업로드 공지2 아버지의 신장이 좋지 않아서 제가 신장 공여를 할 생각이였습니다 다음주 월요일에 신장내과 정밀 검사 결과가 나오므로 그때 가서 다시 얘기 해보기로 했는데 그날이 오늘이였어요 만성신부전4기이신데 .. 병원에서는 약물치료와 식이요법으로 경과를 지켜보자고 하시더라구요 일주일간 마음고생 많았는데 결과가 석연치 않아서 마음이 놓이진 않습니다 .. 공부하면서 힘들고 지쳤었는데 건강하다라는 사실 하나 만으로 이렇게 큰 힘이 될줄 새삼 깨달았습니다 오전에 할머니가 전화하시고는 아버지 상태를 듣더니 서럽게 우셨어요.. 후.. 여간 요즘 좀 힘이 살짝 드네요 내일은 아버지 퇴원 수속 밟으러 갑니다 업로드는 빠른 시일내로 좋은 공부내용 돌아오겠습니다 감사합니다
2021-05-05(태양열 에너지 예측4) FE & data 분리를 끝마친 후 2021년 1월 데이터를 검증 데이터로 사용하여 lgb와 회귀분석 각각 돌려봤습니다. lgb 코드는 데이콘에서 공유한 코드를 사용해 봤어요 회귀분석 결과 R^2이 1 이 나왔어요. 뭔가 잘못된 것아요; 설명력이 100%일리가 없을텐데... target 데이터로 차분,lag,seasonal 등 적용했는데, 12월 Y데이터가 1월에 들어 갔기 때문에 그런게 아닌가 싶습니다. 그런데 고민되는 점은, 단지 검증하는 목적인데 굳이 Y데이터를 변경할 필요가 있을까 였어요 뭔가 뜬구름 잡는 것같아서 고민하다가 일단 lgb 상태는 어떤지 쭉 확인해 봤습니다. lgb의 y_val값과 y_val의 pred를 시각화한 그래프 입니다. 데이콘이 제시한 평가 방식으로 점수를 계산해 봤는데 약..
2021-05-04(업로드 관련 공지..) 요 근래 업로드를 못했습니다 개인적인 집안 사정 때문에 공부 진도를 제대로 나가지 못했습니다 음..;; 사실 아버지가 좀 편찮아지셔서 병원에 입원을 하셨습니다 최대한 집중해서 해볼려고 노력은 하는데 업로드를 할만큼 양질의 공부 내용은 없었어요.. 곧 있으면 검사 결과 나오시는데.. 걱정이 많이 되네요 그래도 오늘 꾸역꾸역 태양열 에너지 예측 프로젝트 진도를 조금 나갔어요 feature engineering과 data split 코드를 진행 중인데 군데군데 알 수 없는 에러가 떠서 아직 완성은 못했습니다
2021-04-29(태양열 에너지 예측3) 오늘은 전에 예고했던 EDA 중 시간 별 시각화 진행과 feature engineering 중 Trend, seasonal 분리까지 진도를 나갔습니다. 지금 하고 있는 프로젝트가 실제로 대회 진행 중이라서 자세한 내용을 말하면 안될것 같아서 좀 답답한데 EDA결과 좀 의외의 사실을 알게 되었어요 태양열이 가장 쎈 여름에 에너지 수급이 가장 높을 줄 알았는데 그거 아니였더라구요 구글링을 통해 예상되는 원인을 발견했는데 꽤나 EDA 결과와 일맥상통한 걸 확인했어요 물론 다른 원인이 있을수도 있고 혹은 EDA를 잘못했을 수도 있습니다 그리고 바로 데이터 전처리 중 FE를 진행 중에 있습니다. 시계열 분해를 해서 결측치를 채웠는데.. 이게 문제가 새벽대의 값은 0 인데 시계열 분해 특성상 결측값으로 비어 버렸어..
2021-04-28(딥러닝수학4_Linear Regression & Gradient Descent) 저번 포스팅 체인 룰에 이어서 이번 시간부터는 Linear Regression을 시작으로 포스팅하겠습니다. 1. Linear Regression? 데이터 공부하면서 참 자주 들었으면서도 잘 몰랐던 부분이지 않을까 합니다. 오늘은 딥러닝에서 Linear가 어떤 역할을 맡고 있는지 알아 보도록 하겠습니다. 딥러닝의 한 노드는 가중치*입력+bias를 계산한 뒤 활성화 함수로 넘겨줍니다. 이때 가중치*입력+bias가 바로 linear 인것이죠 linear에서 활성함수를 적용것이 위와 같으며 이를 logistic Regression. 활성함수를 제거한 것이 Linear 입니다. 2. Regression? Regression을 간략하게 정의하면 독립변수와 종속변수간의 관계를 파악하여 미래를 예측하는 방법입니다. 우..
2021-04-27(태양열 에너지 예측2) 오늘은 태양광 프로젝트를 진행했습니다. 데이터 전처리 예시 중 선형보건법이 있었습니다. 처음 본 방법이라서 신기했어요 이게 없었더라면 결측치를 삭제하거나 아마 ffill / bfill로 채웠을텐데 말이죠 결측치가 연쇄적으로 따닥 따닥 붙어 있다면 fillna 보다는 선형보건법이 유용할것같네요 아무튼 오늘 진도 나간 부분은 일기예보 시간 정하기 와 데이터 concat 정도입니다. 주어진 데이터 중에서 일기예보가 있었어요 11시,14시,17시,20시 이렇게 하루에 4번씩 일기예보를 한다고 합니다. 데이콘 예시를 보니까 임의로 11시 일기예보를 사용했더라구요 저는 각 예보의 오차를 알아내서 시간을 정하고 싶었어요 그래서 실제 관측치 데이터를 가지고 직접 MSE 방법으로 오차를 구했습니다. (온도로 비교했습니다..
2021-04-26(딥러닝 수학3_Vector Chain Rule) Chain Rule 위 두 함수가 있을때 이를 결합한 Z함수가 아래처럼 있습니다. 이때, Z함수를 s로 미분한 값을 알아 낼수 있을까요? S는 X,Y에 포함된 element입니다. 그리고 X,Y는 Z함수안에 포함되어 있습니다. 흐름을 보면 Z함수-X,Y함수-s,t elements 이렇게 관계가 맺어져 있습니다. 이게 무슨 뜻일까요? 이 관계를 한번 들여다 보겠습니다. Z라는 함수가 바닷물이고 그 바닷물 안에는 X,Y함수라는 물고기가 있고 s,t는 물고기가 잡아 먹은 먹이 같은 구조입니다. 음.. 딥러닝이 가능한 이유는 Back propagation이 있기 때문입니다. 다시말해서 오차를 쪼개서 파라미터를 업데이트해줄때 사용되는게 이 체인 룰입니다. 이 바닷물의 수질을 아주 깨끗하게 만들고 싶습니다. 오염도..