본문 바로가기

728x90

전체 글

(219)

2021-05-24(태양열 에너지 예측11) 오전에는 채용공고, 오후에는 태양열 에너지 예측 작업을 진행했습니다~ 저번주 토요일 작업에서 막혔던 부분은 메모리 부족이였습니다. 따라서 마지막 포스팅에서 언급한 계획에 따라서 오늘 코랩 pro로 업그레이드 후 SARIMAX의 파라미터 search 작업 중에 있습니다. 추세 order 와 계절성 order를 동시에 for문으로 자동화 하면 메모리 부족이 떠서 seasonal order를 고정한 채 trend order 진행중에 있습니다. AIC가 상당히 높게 측정이 되고 있습니다. (X변수는 넣지 않은 상태입니다) 이 작업에서 결정될 파라미터를 가지고 x 변수까지 넣어서 다시 돌려볼 생각입니다. 교재를 보니까 r 에서는 시계열 앙상블 패키지가 있더라구요. 그래서 교재 공부 하면서 제 데이터에 어떻게 적용..

2021-05-22(태양열 에너지 예측10) 저번 시간에는 Y의 정상성 변환과정 까지 진행했습니다. 작업을 마저 이어서 sarimax을 적용하여 log 하기 전/후를 비교해 보았습니다. 비교결과, 로그 하기 전이 등분산을 가지며(Heteroskedasticity), 정규분포에 좀 더 가까웠습니다. 이를 토대로 sarimax의 추세 파라미터와 계절성 파라미터를 각각 조정하면서 진행했는데 작업환경인 corab에서는 메모리 초과로 인해 작업 진행이 힘들게 되었습니다. 차분이 2회 이상 적용 못하며, 주피터 노트북으로 돌리면 pc가 다운되었습니다ㅠ 아무래도 코랩 업그레이드 신청을 해야 할 것같아요 그래서 다음 시간에 할 것은 코랩 업그레이드 후 sarimax의 파라미터 조정과 x 변수까지 적용한 모델 생성입니다.

2021-05-19(태양열 에너지 예측9) 저번 작업에 이어서 target에 대한 정상성 변환을 진행 중입니다. 강의들었던 내용을 많이 까먹어서 이대론 진행이 불가능 할것같은 생각에 복습을 주로 했습니다. 그래서 진도는 거의 못나갔지만 데이터의 의미를 알아 갈수 있었습니다. 다시 한번 강의를 보니까 한결 수월했고 이해도 빨리 된 것같네요 dangin_floating target에 대한 adf 통계량을 살펴 보았습니다. p-value가 0.05보다 낮으므로 정상성을 나타내고 있습니다. 낮이되면 태양 에너지가 올라가고 밤이 되면 0이 되는 값의 반복이 되다보니까 추세보다는 계절성 데이터 라는걸 쉽게 알수가 있었는데 이를 통계량을 다시 한번 확인했습니다. kpss(계절성 유뮤 판단)의 통계량 결과 0.01보다 낮으므로 비정상, 시각화 결과도 계절성이 ..

2020-05-18(딥러닝 수학6_basic building nodes) 딥러닝 연산 시 필요한 기본적인 노드들을 만들어 보면서 복습하는 시간을 가졌습니다. 아래의 노드들을 차례대로 생성해 줍니다. 1) Plus_node x,y 를 더해서 z를 만들어 줍니다. z= x+y 를 각각 편미분하면 1이 나오고, 이를 체인룰을 통해 back propagation하면 위와 같이 차례대로 곱해 줄수 있겠습니다. import numpy as np class plus_node: def __init__(self): # x+y = z self._x, self._y = None,None #arg를 새로 받을 것이기 때문에 none으로 설정 self.z = None def forward(self, x,y): self._x,self._y= x,y self._z = self._x + self._y d..

2021-05-17(태양열 에너지 예측8) 오늘은 아주 큰 뻘짓을 했습니다 블로그에 적기가 창피 한데..; 기존에는 Y에 대해서 FE를 진행한 후 기존 데이터프레임과 병합을 시켰었는데.. 오늘은 X데이터에 대해서 lag 값을 넣었습니다 ㅎㅎ; 제 의도는 1 혹은 2시간 전의 온도 데이터가 영향을 줄수 있을거라 생각했어요 그러면 온도 데이터를 lag 값을 넣어보자고 단순하게 생각했어요 그렇게 계산해 보니까 다중공선성이더라구요 성능도 더 나빠졌습니다 ㅠ ;; 그러면 제 의도에 맞게끔 x데이터를 추가할려면 어떻게 해야하는지 곰곰이 생각해 봤는데 lag 값만한게 없더라구요 시계열 초보라서 엉키는 부분이 많아요 생각보다 시계열데이터 다루기가 정말 까다로운 것같아요 그래서 처음부터 돌아갔습니다 원래 하던것 처럼 FE를 진행했고(nan 채우는 방식을 수정해 ..

2021-05-15(태양열 에너지 예측7) 기존에 업로드한 1~6번의 결과물은 제대로 된 과정이 아닌 것같아서 다시 새롭게 시작하기 시작했어요 이번에는 강의를 다시 돌려보면서 어떻게 적용을 해야할지 생각해 보면서 적용 할 생각입니다. 그래서 오늘은 강의를 돌려봤아요 FE부터 까먹었던 내용들을 다시 공부했습니다. 두번째 다시 들으니까 그 당시에 제대로 이해 못했던 개념이 조금 더 명확하게 알겠더라구요 아~ 강사 이래서 저런 소리를 한거였구나 ~ 라는 느낌? 제가 기존에 했던 FE를 보니까 더미변수 해야할 변수를 그냥 스케일링 했더라구요 강의보면서 어떻게 해야 할지 생각하고 있는데.. 시계열 데이터적인 사고방식? 하기가 보기 보다 어렵다는걸 깨닫게 되었네요 좀더 좋은 내용을 가지고 업로드 하겠습니다

2021-05-14(태양열 에너지 예측6) 바로 지난 번에 겪었던 문제점은 회귀분석 결과 R-squared가 1이라는 점이였습니다. 그래서 스케일링과 다중공선성을 진행할 필요가 있어 보여서 실행해 보았는데요 결과는 크게 달라지지 않았습니다 일단 계수들만 봐도 상당히 부자연스러웠습니다. 태양열 에너지가 최대값이 600정도였는데 몇천 단위가 나온다는건 납득하기가 쉽지 않아 보입니다. 그 외로 다른 통계치들을 봤을때도 일관성이 떨어져서 고쳐야 할점이 많아 보입니다. 다음 시간에는 일괄적으로 적용한 스케일링 수정과 원핫인코딩을 새로 적용할 생각입니다. 그리고 시계열 분해한 정보를 빼고 순전히 기상예보 데이터만을 가지고 예측을 해보도록 재 수정을 해볼 생각입니다. 서적을 보니까 시계열 모델을 앙상블해서 예측을 또 하더라구요 이런 것도 있구나 싶었습니다 A..

2021-05-13(딥러닝수학5_Gradient Descent2 & learning late) 1. Gradient Descent 하나에 대한 세타가 아니라 2개이상의 세타를 구하게 되면 아래와 같은 과정을 거치게 된다. gradient descent를 구하는 방법은 Loss와 Cost 방법이 있다. 각각에 대하여 2차원(세타0,세타1)의 gradient를 구할수있게 된다. 이를 이용하여 gradient descent를 구하게 된다. 각각 편미분을 이용하여 최적점을 찾아가는 과정이다. 하지만 현실적인 모양은 위 시각화처럼 이쁜 모양이 아니다. 한쪽이 긴 형태를 보이는 것이 현실적인 시각화이다. 이렇게 되면 문제점이 뭐냐면 세타1,세타0에 대한 업데이트 속도 차이가 많이 나게 된다. 세타1은 초반에 빠르게 업데이트가 되고 세타0은 처음부터 천천히 업데이트가 되는 것을 볼수있다. 딥러닝에서 학습이 잘..

목록 더보기

티스토리툴바