본문 바로가기

728x90

Data Diary

(166)
2021-04-03 기록 엊그제 다 복습 못한 내용에 대해서 공부를 했습니다 추가된 부분은 SARIMAX 자동화 이고 아래 실습 내용에 추가 했습니다 2021.04.01 - [기록 note] - 2021-04-01(시계열데이터 심화11_선형확률과정 분석싸이클1) 2021-04-01(시계열데이터 심화11_선형확률과정 분석싸이클1) *본 내용은 시계열데이터 강의 내용 중 일부분을 요약한 내용입니다 저번 포스팅에서 분석 사이클을 대략적으로 정리 했는데 강의자료에 깔끔하게 나와 있어서 가져왔습닌다 아래실습을 통해 ghdrldud329.tistory.com 위 실습내용은 종합적으로 정리된 실습 하나만 포스팅했습니다. 수학강의도 구매를 해놔서 듣고 싶은데 .. 흠... 고민이 됩니다 취업을 할려면 포폴이나 대회에서 입상이라도 받아야 할 것..
2021-04-02 기록(1차 방문) 오늘은 회사에 방문 지원을 했습니다. 코로나 시국에 초대받지 않은 손님이 업무 중에 오는 건 예의가 아닌 것 같아서 짧은 소개서를 우편함에 넣고 왔습니다. 단지 우편함에 놓고 오면 되는데 어찌나 떨리 던 지.. 이 소개서가 우스워 보일 진 않을까 걱정이 되었죠 소개서를 여러 번 수정 또는 갈아엎는걸 반복하니까 한 5시간은 투자한 것 같아요 이런 걸 써보진 않았으니 뭐가 좋을지 몰라서 헤매었습니다. 방문한 회사는 제 기억으로는 3월 초쯤부터 계속 생각하고 있었던 곳이였어요 준비가 미흡다고 생각해서 최대한 마감 직전까지는 버티다가 며칠전에 잡코리아로 지원을 했었어요 3월30일에 열람을 했는데 그날 이 블로그의 방문자는 없었어요 다시말해서 서류탈락인 것같아요 사실 서류 접수 전 부터 저렇게 방문 접수 할 생각..
2021-04-01(시계열데이터 심화11_선형확률과정 분석싸이클1) *본 내용은 시계열데이터 강의 내용 중 일부분을 요약한 내용입니다 저번 포스팅에서 분석 사이클을 대략적으로 정리 했는데 강의자료에 깔끔하게 나와 있어서 가져왔습닌다 아래실습을 통해 어떻게 적용 하는지를 알아 볼수 있었습니다 실습: 항공사 승객수요 Auro-ARIMA 모델링 # 라이브러리 호출 import pandas as pd import numpy as np import matplotlib.pyplot as plt import statsmodels.api as sm %reload_ext autoreload %autoreload 2 from module import stationarity_adf_test, stationarity_kpss_tesst #데이터 준비 data= sm.datasets.get_d..
2021-03-31 기록 어제 강의 들었던 ARIMA와 SARIMA 개념이 제대로 이해가 되지 않아서 강의를 다시 돌려보면서 복습하는 시간을 가졌습니다. 어제 밤에 포스팅한 내용에서 SARIMA 실습코드와 설명을 추가로 올렸습니다. 2021.03.30 - [기록 note] - 2021-03-30(시계열데이터 심화10_ARIMA&SARIMA) 2021-03-30(시계열데이터 심화10_ARIMA&SARIMA) *본 내용은 시계열데이터 강의 내용 중 일부분을 요약한 내용입니다 ARIMA의 한계를 실습을 통해 확인해 보기 # ARIMA 모형의 한계 # 데이터 로딩 및 시간변수 반영 raw_set = datasets.get_rdataset("accdeaths", ghdrldud329.tistory.com 그래도 이해가 가지 않은 부분이 ..
2021-03-30(시계열데이터 심화10_ARIMA&SARIMA) *본 내용은 시계열데이터 강의 내용 중 일부분을 요약한 내용입니다 ARIMA의 한계를 실습을 통해 확인해 보기 # ARIMA 모형의 한계 # 데이터 로딩 및 시간변수 반영 raw_set = datasets.get_rdataset("accdeaths", package='MASS') raw = raw_set.data raw.time = pd.data_range("1973-01-01", periods= len(raw), freq='M') raw['month'] = raw.time.dt.month #데이터 확인 display(raw.tail()) plt.plot(raw.time, raw.value) plt.show() # 정상성 확인 display(stationarity_adf_test(raw.value, []..
2021-03-29(시계열데이터 심화9_ARMR&ARIMA) *본 내용은 시계열데이터 강의 내용 중 일부분을 요약한 내용입니다 MA모형(Moving Average) 위 처럼 과거 시점의 오차를 사용하여 Yt를 구한다. 오차는 실측치 와 예측치를 뺀 값이다. 어떤 변화가 보일때는 이 오차 값이 커진다. 반대로 변동이 적고 충분히 예측이 가능하다면 오차는 0에 가깝게 됩니다. MA는 과거 데이터의 변동을 가지고 미래가 어떤 식으로 변할건가를 알아보는 방법입니다. MA의 ACF는 q시점까지 상관성이 있고, PACF는 완만한 감소 패턴을 보인다. 이를 아래 실습으로 확인해보자 import numpy as np import statsmodels.api as sm import matplotlib.pyplot as plt MA의 q가 5일때 plt.figure(figsize=..
2021-03-24(시계열데이터 심화8_Y의 정상성변환) *본 내용은 시계열데이터 강의 내용 중 일부분을 요약한 내용입니다 지금까지는 feature들을 대상으로 진행했다면 이번 기록에는 Y을 대상으로 정상성 변환 part를 요약해봤습니다. Y는 target이자 종속변수입니다. 현실의 데이터는 대~~부분 target은 비정상성입니다. 즉 시간의 흐름에 따라 뭔가 변화가 있고 분산도 왔다갔다 한 형태를 띕니다. *정상성으로 변환하면 좋은 점은 무엇인가?? 예측하기가 쉬워집니다. 전에 올린 포스팅에서 매출과 점유율을 말씀드렸습니다. 매출은 마이너스부터 플러스까지 예측해야 될 범위가 넓어서 틀릴 확률이 비교적 높습니다. 이를 점유율로 바꾸면 0~1까지의 범위로 축소가 되고 예측이 맞을 경우도 맞아지게 됩니다. 이와 똑같은 원리입니다. 하지만 반드시 정상성으로 변환한다..
2021-03-23(시계열데이터 심화7_정규화방법론&앙상블) *본 내용은 시계열데이터 강의 내용 중 일부분을 요약한 내용입니다 정규화 방법론(Regularized Method, Penalized Method, Contrained Least Squares) -선형회귀 계수(weight)에 대한 제약 조건을 추가함으로써 모형잉 과최적화를 맏는 방법 정규화 회귀분석이 왜 필요하는걸까?? 이 개념이 왜 등장 한 걸까? 아래 처럼 세가지 모델이 있다고 가정하자 이 중에서 어떤 모델이 가장 좋은 걸까? 라는 생각에서 시작이 해봅니다. 위 모델들을 아래 그래프로 설명하자면 1번 모델은 왼쪽 실선 박스에 해당하고 3번 모델은 오른쪽 회색 실선 박스에 해당됩니다. 1번은 train,test 둘다 에러가 높고 3번모델은 train에 아주아주 잘 적합이 되어서 train error는..