본문 바로가기

728x90

Data Diary

(166)

2021-05-26(딥러닝 수학7_이론 실습) 딥러닝 수학5에서 다룬 내용을 가지고 실습을 하는 시간을 가졌습니다. 먼저 데이터를 생성하는데 y= 5x 라는 방정식 데이터를 100개 만듭니다. (5는 실제 theta이고, 학습을 통해서 따로 설정한 세타 초기값 -1이 5로 어떻게 변해가는지를 실습할 예정) import matplotlib.pyplot as plt import numpy as np from dataset_generator import dataset_generator #강의에서 제공됨을 알립니다. import basic_nodes as nodes #딥러닝 수학5에서 만들었던 node들 입니다. #dataset preparation dataset_gen = dataset_generator() dataset_gen.set_coefficien..

2021-05-25(태양열 에너지 예측12) 어제 진행했던 sarimax의 파라미터를 보완하기 위해서 여러가지를 시도했습니다. 한번 시행하는데 시간이 워낙 많이 걸려서 진도는 제자리 였지만 몇가지 알수 있었던 점은 target를 log화 하면 AIC가 감소 한다는 점입니다. log를 한다고 무조건 감소하진 않는다고 합니다. log는 작은 단위 값을 크게 만드는데 용이한데, 본래 큰 사이즈를 log화 하면 오히려 성능이 나빠진다고도 합니다. 실제로 몇 주전에 log의 성능을 알아보려고 실험했던게 기억이 납니다. 그 당시 결과는 log 화 하면 성능이 나빠진 걸로 기억합니다. 그런데 이번 실험에서는 log를 취한 AIC값이 더 낮으니 혼란이 옵니다. 하기 전에는 AIC는 260000 대 였고 log 후 AIC는 20000대 였습니다. 상당히 큰 차이를..

2021-05-24(태양열 에너지 예측11) 오전에는 채용공고, 오후에는 태양열 에너지 예측 작업을 진행했습니다~ 저번주 토요일 작업에서 막혔던 부분은 메모리 부족이였습니다. 따라서 마지막 포스팅에서 언급한 계획에 따라서 오늘 코랩 pro로 업그레이드 후 SARIMAX의 파라미터 search 작업 중에 있습니다. 추세 order 와 계절성 order를 동시에 for문으로 자동화 하면 메모리 부족이 떠서 seasonal order를 고정한 채 trend order 진행중에 있습니다. AIC가 상당히 높게 측정이 되고 있습니다. (X변수는 넣지 않은 상태입니다) 이 작업에서 결정될 파라미터를 가지고 x 변수까지 넣어서 다시 돌려볼 생각입니다. 교재를 보니까 r 에서는 시계열 앙상블 패키지가 있더라구요. 그래서 교재 공부 하면서 제 데이터에 어떻게 적용..

2021-05-22(태양열 에너지 예측10) 저번 시간에는 Y의 정상성 변환과정 까지 진행했습니다. 작업을 마저 이어서 sarimax을 적용하여 log 하기 전/후를 비교해 보았습니다. 비교결과, 로그 하기 전이 등분산을 가지며(Heteroskedasticity), 정규분포에 좀 더 가까웠습니다. 이를 토대로 sarimax의 추세 파라미터와 계절성 파라미터를 각각 조정하면서 진행했는데 작업환경인 corab에서는 메모리 초과로 인해 작업 진행이 힘들게 되었습니다. 차분이 2회 이상 적용 못하며, 주피터 노트북으로 돌리면 pc가 다운되었습니다ㅠ 아무래도 코랩 업그레이드 신청을 해야 할 것같아요 그래서 다음 시간에 할 것은 코랩 업그레이드 후 sarimax의 파라미터 조정과 x 변수까지 적용한 모델 생성입니다.

2021-05-19(태양열 에너지 예측9) 저번 작업에 이어서 target에 대한 정상성 변환을 진행 중입니다. 강의들었던 내용을 많이 까먹어서 이대론 진행이 불가능 할것같은 생각에 복습을 주로 했습니다. 그래서 진도는 거의 못나갔지만 데이터의 의미를 알아 갈수 있었습니다. 다시 한번 강의를 보니까 한결 수월했고 이해도 빨리 된 것같네요 dangin_floating target에 대한 adf 통계량을 살펴 보았습니다. p-value가 0.05보다 낮으므로 정상성을 나타내고 있습니다. 낮이되면 태양 에너지가 올라가고 밤이 되면 0이 되는 값의 반복이 되다보니까 추세보다는 계절성 데이터 라는걸 쉽게 알수가 있었는데 이를 통계량을 다시 한번 확인했습니다. kpss(계절성 유뮤 판단)의 통계량 결과 0.01보다 낮으므로 비정상, 시각화 결과도 계절성이 ..

2020-05-18(딥러닝 수학6_basic building nodes) 딥러닝 연산 시 필요한 기본적인 노드들을 만들어 보면서 복습하는 시간을 가졌습니다. 아래의 노드들을 차례대로 생성해 줍니다. 1) Plus_node x,y 를 더해서 z를 만들어 줍니다. z= x+y 를 각각 편미분하면 1이 나오고, 이를 체인룰을 통해 back propagation하면 위와 같이 차례대로 곱해 줄수 있겠습니다. import numpy as np class plus_node: def __init__(self): # x+y = z self._x, self._y = None,None #arg를 새로 받을 것이기 때문에 none으로 설정 self.z = None def forward(self, x,y): self._x,self._y= x,y self._z = self._x + self._y d..

2021-05-17(태양열 에너지 예측8) 오늘은 아주 큰 뻘짓을 했습니다 블로그에 적기가 창피 한데..; 기존에는 Y에 대해서 FE를 진행한 후 기존 데이터프레임과 병합을 시켰었는데.. 오늘은 X데이터에 대해서 lag 값을 넣었습니다 ㅎㅎ; 제 의도는 1 혹은 2시간 전의 온도 데이터가 영향을 줄수 있을거라 생각했어요 그러면 온도 데이터를 lag 값을 넣어보자고 단순하게 생각했어요 그렇게 계산해 보니까 다중공선성이더라구요 성능도 더 나빠졌습니다 ㅠ ;; 그러면 제 의도에 맞게끔 x데이터를 추가할려면 어떻게 해야하는지 곰곰이 생각해 봤는데 lag 값만한게 없더라구요 시계열 초보라서 엉키는 부분이 많아요 생각보다 시계열데이터 다루기가 정말 까다로운 것같아요 그래서 처음부터 돌아갔습니다 원래 하던것 처럼 FE를 진행했고(nan 채우는 방식을 수정해 ..

2021-05-15(태양열 에너지 예측7) 기존에 업로드한 1~6번의 결과물은 제대로 된 과정이 아닌 것같아서 다시 새롭게 시작하기 시작했어요 이번에는 강의를 다시 돌려보면서 어떻게 적용을 해야할지 생각해 보면서 적용 할 생각입니다. 그래서 오늘은 강의를 돌려봤아요 FE부터 까먹었던 내용들을 다시 공부했습니다. 두번째 다시 들으니까 그 당시에 제대로 이해 못했던 개념이 조금 더 명확하게 알겠더라구요 아~ 강사 이래서 저런 소리를 한거였구나 ~ 라는 느낌? 제가 기존에 했던 FE를 보니까 더미변수 해야할 변수를 그냥 스케일링 했더라구요 강의보면서 어떻게 해야 할지 생각하고 있는데.. 시계열 데이터적인 사고방식? 하기가 보기 보다 어렵다는걸 깨닫게 되었네요 좀더 좋은 내용을 가지고 업로드 하겠습니다

목록 더보기

티스토리툴바