본문 바로가기

728x90

Data Diary

(166)

2021-03-20 기록 오늘 아침일찍 저감장치 장착하기 하기 위해서 가산쪽 공업사를 방문했습니다 ㅎㅎ 집에 돌아 오니까 10시라서 넉넉하게 주간에 배운 내용을 간단하게 복습했습니다 짧은 시간에 많은 걸 배우다 보니까 조금 헷갈리는 부분이 있었습니다 이제 3월 말이라서 그런지 불안감이 커집니다 ㅠ 30살이라서 마치 시한부 마냥 시간이 갈수록 갑갑하게 느껴집니다 걱정과 생각이 많아서 남은시간에는 쉬었어요 운동도 갔다오고~ 산책도 하고 ~ 무튼, 다음주 부터는 시계열 알고리즘을 배웁니다 총 63강 정도 되서 대략 2주 정도 걸릴것같습니다:D 그러면 다음주 월요일에 알고리즘 내용을 가지고 다시 돌아 오겠습니다

2021-03-19(시계열데이터 심화6_다중공선성 제거&정상성) *본 내용은 시계열데이터 강의 내용 중 일부분을 요약한 내용입니다 저번 포스팅에 이어서 조건수를 줄이기 위한 다중공선성(Multicollinearity) 제거를 포스팅하겠습니다. 독립변수가 다른 독립변수의 조합으로 표현될 경우 다중공선성이 발생 독립변수끼리 서로 상관관계가 있을경우 발생 독립변수의 공분산 행렬(Covariance Matrix) 벡터공간(Vector Space)의 차원과 독립변수의 차원이 같지 않는 경우(Full Rank가 아니다) 다중공선성 제거 방법 2가지(VIF,PCA) 1.VIF(Variance Inflation Factor): 종속성이 높은 X들을 선택하는 방법 각 변수에 대해서 회귀분석을 실시합니다. 아래처럼 X1이라는 변수는 다른 변수의 선형결합으로 표현이 될수 있을지를 계산한..

2021-03-18(시계열데이터 심화5_현실성을 반영한 데이터패턴& Scaling) *본 내용은 시계열데이터 강의 내용 중 일부분을 요약한 내용입니다 이전에 올렸던 포스팅은 test 데이터를 알고 있을 경우에 FE를 진행하여 모델을 돌렸습니다. test 할 데이터에 대해서 FE를 했으므로 R^2 값이 1.0이 나왔습니다. 하지만 현실에서는 test할 데이터를 모릅니다. 미래가 어떻게 변할지는 그 누구도 모르기 때문입니다. 따라서 현실에 있을법한 test 데이터를 만들고자 합니다. 1-step 방법을 사용해서 미래 데이터 패턴을 예측하는 방법도 있지만 현 실습에서는 간단하게 진행했습니다 2011,2012년도 두 연도가 있는 자전거 수요 데이터에서, 현 실습에서는 2011년 데이터 패턴을 그대로 2012년도 데이터패턴에 적용했습니다. 여기에 모델을 적용한 후 스케일링 전처리 작업을 수행했습..

2021-03-17(시계열데이터 심화4_잔차진단) *본 내용은 시계열데이터 강의 내용 중 일부분을 요약한 내용입니다 모델 성능 평가 후 개선 할 점이 있는지, 모델이 신뢰성이 있는 것인지를 파악하기 위해서 잔차진단을 합니다. 총 네가지 스텝으로 구성되어있습니다. 1. 정상성 테스트 정상성이란 시간의 흐름에 따라 통계적 특성이 변하지 않는다. 즉, 시계열이 정상성이다. 통계적 특성: 주로 평균(Mean)과 분산(Variance)/공분산(Covariance)를 얘기하지만 이를 포함한 모든 분포적 특성을 총칭합니다. 2. 정규분포 테스트(normality Test) 3. 자기상관 테스트(Autocorrelation Test) 4. 등분산성 테스트(Homoscedasticity) 잔차진단 결과 백색잡음이면 패턴을 잘 추출 했다는 의미 입니다. 즉, 찾아낼 패턴..

2021-03-16(시계열데이터 심화3_시각화&모델적용&검증지표) *본 내용은 시계열데이터 강의 내용 중 일부분을 요약한 내용입니다 회귀모델을 적용 후 R-squared,F-분포, t검정 등의 결과가 일관성이 없을때 믿어야 할건 데이터 라는 것이다. 일관성이 없다고 효과없는 데이터를 무작정 삭제 하는게 아니라, 시각화를 통해서 종속변수에 영향을 주는 데이터인지 아닌지를 판단해야한다. 모델적용 fit_reg1 = sm.OLS(Y_train, X_train).fit() display(fit_reg1.summmary()) pred_tr_reg1 = fit_reg1.predict(X_train).values pred_te_reg1 = fit_reg1.predict(X_test).values ''' *R-squared 평균치 ybar 보다 적합이 좋은지 나쁜지를 나타낸다 1.0..

2021-03-15(시계열데이터 심화2_FE&Data split) *본 내용은 시계열데이터 강의 내용 중 일부분을 요약한 내용입니다 시계열 변수 추출 7종 Feature Engineering 통해 새 변수를 창출 추가된 새 변수가 무조건 종속변수에 영향을 못 줄수도 있다 예로들어 광고비 1,2,3,4(백만원 단위), GDP 1,2,3,4(조 단위) 변수가 있을때 컴퓨터는 이 두 변수를 같은 것으로 취급한다 1. 빈도(Frequency): 계절성 패턴(seasonality)이 나타나기 전까지의 데이터 갯수(사람이 정함) 사람이 정하는 것은 데이터를 년단위로 짜를건지, 시간단위로 짜를 건지 등 을 말한다 예로들어 한 컬럼의 데이터가 2019,2020,2021 있을때, 사람은 연도라는 걸 알지만 컴퓨터는 지정하지 않으면 모르므로 년도라고 지정 해줘야 한다 다만, 데이터를 분..

2021-03-13(Opencv 복습) 처음시작부터 기하학적 변환까지 진행했습니다 Opencv로 프로젝트를 진행해 보지 않아서 인지 완전히 머리로 들어 왔다는 느낌이 없습니다 그래서 복습할때는 외우려 하기 보다는 이해 위주로 진행합니다 다음에 Opencv 써야 할 때가 온다면 실습내용과 책이 있으니까 금방 적용할수 있지 않을까 생각합니다 요즘 생각이 많아져서 학습에 제대로 집중이 안되네요 내가 하고 있는게 맞는 방향인지, 제대로 컬리큘럼을 계획한건지 자신감도 떨어지고 있습니다 3월달 들어오면서 부터 그런것 같습니다 하... 일단 내일은 쉬고 월요일에는 시계열데이터 공부하도록 하겠습니다~

2021-03-12(시계열데이터 심화1) *본 내용은 시계열데이터 강의 내용 중 일부분을 정리 요약한 내용입니다 현실의 데이터 분석 현실의 데이터 분석은 2단계인 데이터 분석이 아니라 1단계, 문제 정의/기획이 가장 중요하다 어떻게 정의 하느냐에 따라 독립,종속 변수가 달라지므로 데이터 분석의 방향이 결정되기 때문이다. 문제 정의 단계는 끊임없이 진화/변경하여 업데이트를 해야한다 데이터 관점에 따른 분류 횡단면 데이터: 어느 한 시점에서 여러 변수들이 있는 데이터 시계열 데이터: 여러개의 시점과 특정한 변수가 있는 데이터 시계열 횡단면 데이터: 여러시점과 변수들이 함께 있는 데이터 패널데이터: 꽉차 있는 시계열 횡단면 데이터 Tick: 초 보다 작은 시간단위(high Frequency) * raw data의 2가지 타입 1. Log: 시간 순으..

이전 1 ··· 12 13 14 15 16 17 18 ··· 21 다음

티스토리툴바