*본 내용은 시계열데이터 강의 내용 중 일부분을 정리 요약한 내용입니다
현실의 데이터 분석
- 현실의 데이터 분석은 2단계인 데이터 분석이 아니라 1단계, 문제 정의/기획이 가장 중요하다
- 어떻게 정의 하느냐에 따라 독립,종속 변수가 달라지므로 데이터 분석의 방향이 결정되기 때문이다.
- 문제 정의 단계는 끊임없이 진화/변경하여 업데이트를 해야한다
데이터 관점에 따른 분류
- 횡단면 데이터: 어느 한 시점에서 여러 변수들이 있는 데이터
- 시계열 데이터: 여러개의 시점과 특정한 변수가 있는 데이터
- 시계열 횡단면 데이터: 여러시점과 변수들이 함께 있는 데이터
- 패널데이터: 꽉차 있는 시계열 횡단면 데이터
- Tick: 초 보다 작은 시간단위(high Frequency)
* raw data의 2가지 타입
1. Log: 시간 순으로 데이터를 쌓은 것(정렬 개념이 아닌 특정시간에 따라 쌓는 개념
ex) 센서에서 나오는 정보를 차곡차곡 쌓아 가는 형식
2. Tabel: 특정한 형태로 가공된 것(정렬되거나 groupby 등)
ex) 주로 경연대회에서 제공해주는 데이터가 Tabel에 속하는 것같다
통계 기본 용어
1. 왜도(Skewness): 평균을 중심으로 좌우 데이터가 편향 되어 있는 정도를 표현
왜도가 왜 필요한가?
A와 B반의 키를 비교해볼때, 두 반 모두 키 평균과 퍼져있는 정도, 즉 분산이 같다고 가정합니다.
하지만 분포를 보면 그 양상은 다를수 있습니다. A반은 키가 매우 작은 학생 몇명때문에 평균이 177이고
B반은 키가 매우 큰 학생이 몇몇 존재 해서 평균이 177이 되었습니다. 아래 그림에서 교차하는 점이
177일때 왼쪽이 A반이고 오른쪽이 B반 이라면 이해하기가 쉬워집니다.
두 반 모두 평균과 분산은 같지만 우리는 각기 다른 인사이트를 얻을수 있기 때문에 왜도가 필요합니다
- 질 좋은 빅데이터란 stew가 없는 데이터입니다
- 특정한 샘플만을 통해 분석을 실행한다면 치우침(bias)은 생길수 밖에 없습니다
- 따라서 데이터 분석 시 이러한 함정에 빠지지 않도록 유의해야합니다
2. 첨도(Kurtosis): 분포의 뾰족함 정도
첨도가 왜 필요한가?
뾰족할수록 중심으로 몰리게 되는 분포가 만들어 집니다. 이는 양 끝 사이드가 0으로 빨리 수렴이 됩니다.
그래서 이상치가 거의 존재 하지 않을 가능성이 커집니다. 반면 첨도<0 인경우 분포를 보면
양끝 사이드가 두텁게 형성되어 있습니다. 이때 저만의 예시를 들자면 가운데 몰리는 부분을 일반적인 사람, 평범한 사람이라고 말하고 양 끝사이드에 있는 사람은 독창적이며 남들이 가지 않는 길을 걷는 사람이라고 이해했습니다
아마존의 경영전략은 A~Z까지 모든 물건을 판다는 전략입니다. 그래서 독창적인 사람이 요구하는 특이한 물건도 판매를 하게 됩니다. 따라서 아마존에게는 이 첨도의 분포를 통해 인사이트를 고객에 대한 특징과 인사이트를 얻을수 있습니다
3. 상관관계: A변수의 변화와 B변수의 변화방향의 (선형적)유사성으로 표준화된 공분산이라고도 함
상관관계는 왜 있는 것인가?
인과관계를 규명하지 못하기 때문에 대신 상관관계를 사용하는 것입니다.
강의에서 예로 든 것을 말하자면 여름이 되면 아이스크림 매출은 증가합니다. 또한 여름이 되면 익사자 수가 증가합니다.
그렇다면 여름이 원인이고 결과가 아이스크림 매출 증대, 익사자의 수 증가 인가요? 여름을 어느날부터 여름이라고 정의하는건 신의 영역이므로 인과관계 규명이 불가능 해집니다. 따라서 아이스크림 매출과 익사자의 수 사이에 어떤 상관정도가 있는지를 대신 알아보는 것입니다.
=> 아이스크림 매출이 증가하면 익사자 수가 증가한다 라는 상관관계 정보를 얻을 수는 있습니다.
가설검정
중심극한정리: 전체 모집단에서 여러 번 Sample을 추출해라. 그리고 Sample마다 평균을 구해라.
이 평균들의 분포는 정규분포이며 전체 모집단의 평균으로 수렴한다.
(개인적으로 위 강의자료 설명이 다른 교재에서 어렵게 설명한 것보다 직관적으로 알기 쉽고 좋은 설명이라고 생각합니다)
검정통계량:대립가설(나의주장)과 귀무가설(대중주장)을 비교하기 위한 검증(Evaluation)지표값, 일명 "점추정"
위 점추정을 한번이 아니라 여러번 구하면 점추정1~점추정2 라는 특정한 구간이 생기는데 이를
신뢰구간 또는 구간추정 이라고도 합니다.
유의수준: 귀무가설(대중주장)이 참이라는 전제 하에, 대립가설(나의주장)이 참이라고 "오판"할 최대 확률
ex) 유의 수준 5%라는 것은..
A와 B가 달리기 시합을 합니다. 대중들은 실력의 차이가 없다고 주장하고, 나의 주장은 a가 더 빠르다고 주장하고 있습니다. 이때 둘다 실력의 차이가 없다는 전제 하에 100번 시합중 95번은 무승부(실력 차이가 없다)이고, 5번은 a가 이길때(나의 주장이 증명된것) 이 5번이 유의 수준이 됩니다.
유의확률: 귀무가설(대중주장)이 참이라는 전제 하에, 대립가설(나의주장)이 관찰될 확률
ex) 유의수준을 5번으로 정했습니다. 이때 만일 a선수가 5번이 아니라 극단적으로 한 20번 이겼다고 가정합니다.
그러면 80번은 무승부인데 이중에 20번은 a 선수가 이기게 되므로 나의 주장(a선수가 더 잘한다)의 신뢰가 급상승 하게됩니다. 로또도 확률이 희박하듯이 20번까지 이길 확률도 크지 않을 것이기에 1%라 가정합니다.
1%를 분포 상에서 보자면 5%보다 오른쪽에 위치해 있습니다. 희박한 확률이 당첨이 된것입니다.
따라서 만일 유의확률이 유의수준보다 더 낮게 나오면 희박한 확률을 뚫고 나온 것이므로 나의 주장(대립가설)이 채택이 되고 반대로 유의 확률이 유의수준보다 크면 대중 주장이 채택됩니다.
학습방향과 알고리즘
각 알고리즘을 바라볼때의 관점을 3가지로 나눈다면 아래와 같습니다
1) 문제가 어디에 속하는지 -> "분석기획(가설/방향)" 가능
2) 알고리즘마다 입력은 무엇인지 -> "데이터전처리(준비)" 가능
3) 알고리즘마다 출력은 무엇인지 -> "결과해석(설명/검증)" 가능
알고리즘의 쓰임을 제대로 파악해야 적재적소의 알고리즘을 선택할수 있으며 선택된 알고리즘이 어떤 입력을 요구(전처리에 영향을준다) 하는지와 출력은 무엇을 주는지를 꼭!!! 알아야 한다.
Time-series Learning는 '주로' 어떤 알고리즘에서 많이 쓰이는가
1. Regression Algorithms(OLSR, Linear Regression, Logistic Regression,Stepwise Regression,MARS, LOESS)
2. Regularization Algorithms(Ridge, LASSO, Elastic Net, LARS)
3. Clustering Algorithms(k-Means,k-Medians, Expectation Maximisation, Hierarchical Clustering)
데이터 분석에서 설명력은 뭘 뜻하는 걸까?
결론부터 말하자면 아래 표와 같다
설명력: 결과 값에 대한 해석, 가설검정이 가능한 구간 추정으로써 가설검정의 결과를 통해 의사결정할수 있는 내용이 포함되는 것들을 설명력이 있다고 표현 (어떠한 변수때문에 종속변수가 영향을 받는지 설명이 가능하다)
반면 주로 점추정으로 설명하는 것들은 설명력이 떨어진다
-> 결과가 왜 이렇게 나왔는지에 대한 설명이 부족
회귀식에서는 아래 그림처럼 구간추정이 있으므로 유의수준과 유의확률이라는 개념이 통합니다.
이는 어떤 변수가 종속변수에 영향을 끼치는가 아닌가 하는 설명이 가능합니다
하지만 가장 설명력이 떨어지는 딥러닝은 구간 추정이라는 결과가 없습니다
단지 신경망을 통해 얻어진 결과만을 출력합니다. 이는 설명력이 떨어지며 왜 이런 결과가 나왔는지 증명할 길이 현재는 없다는 의미가 됩니다.
여기까지가 1일차 요약한 내용입니다. 처음에 현실적인 데이터 분석을 들으면서
뭔가.. 허탈?하다고 해야 할까요 정말 밑도 끝도 없이 프로젝트가 시작되는 구나 라는 생각이 들더라구요
두루뭉실한 말 한마디로 시작해서 분석이 가능하도록 구체적인 명제로 정의 하기 까지의 과정이 만만치 않음을 확인했습니다. :O
내일은 토요일입니다. 일단 계획대로 Opencv 복습을 나갈 생각입니답
'Data Diary' 카테고리의 다른 글
2021-03-15(시계열데이터 심화2_FE&Data split) (0) | 2021.03.15 |
---|---|
2021-03-13(Opencv 복습) (0) | 2021.03.13 |
2021-03-11(제조공정 검출 + Opencv 복습) (0) | 2021.03.11 |
2021-03-10(제조공정불량검출 실습) (0) | 2021.03.10 |
2021-03-09(제조공정불량검출 실습) (0) | 2021.03.09 |