본문 바로가기

728x90

전체 글

(219)
2021-06-21(R 데이터 분석_5(나이브베이즈)& 태양열예측24) 오늘은 R보다는 태양열 프로젝트를 주로 작업했습니다. 곧 있으면 마감인데 원하는 만큼 결과물이 좋지 않아서 조바심이 나네요. 먼저 R 요약 내용입니다. R(나이브베이즈) 나이브베이즈 알기 전 조건부 확률 개념 먼저 보겠습니다. 축구 경기할 때의 승리/패배할 경우는 위와 같습니다. 이 중 승리를 하는데, 선제골의 여부에 따라 승리할 확률을 구할 수 있습니다. 종종 축구 경기 보면 캐스터가 말하길 "우리가 선제골을 넣으면 주로 승리를 하는데요 ~ " 혹은 '홈에서 경기를 하면 승리를 하는데요~' 이 모든 게 조건부 확률입니다. 식으로 나타내면 1번부터 3번까지 차례로 나타낼 수 있습니다. 2 번식을 1번에 대입하면 3번이 됩니다. 중요하게 볼 식은 3번입니다. 3번에 대해 자세히 살펴보겠습니다. P(Y)가 ..
2021-06-17(R 데이터 분석_4(knn,logitstic)) KNN k가 3이라면 내 주변에 있는 A라는 집단의 포인트가 2개, B집단의 포인트가 1개가 있다면, A집단이 많으므로 해당 포인트는 A집단으로 분류가 됩니다. 만일 k가 10개 인데 B집단 포인트가 A보다 더 많다면 해당포인트는 B집단으로 분류가 됩니다. 이 내용을 R에서 어떻게 구현할지 실습을 했습니다. 실습 때 사용한 패키지는 caret입니다. #dependencies = TRUE? : 다른 패키지와 연결이 되도록 하는 명령어(의존성이 있다) install.packages('caret', dependencies = TRUE) ##데이터 불러오기 library(caret) rawdata
2021-06-16(R 데이터 분석_3(머신러닝_개요)& 태양열 예측23) R 이번 part는 R을 직접 다루는 것이 아니라 머신러닝에 대한 전체적인 개요를 훑은 part였습니다. 이는 다른 강의에서 몇번 중첩된 내용이 대부분이였기 때문에 복습의 개념으로 쭉 봤습니다. 덕분에 잊고 있었던 부분과 평소 알고 싶었던 것들을 간략하게 정리 할수 있었던 시간이였습니다. 특히 likelihood는 작년 처음 수학공부했을때, 한창 혼란스러웠던 시기라서 개념조차 어렵다고만 생각했는데 지금 들으니까 한결 이해하기가 편했습니다. 솔~직히 깊은 내용의 강의가 아니라 머신러닝의 개요 수준이라서 제가 아는 범위였기 때문에 집중력이 많이 떨어지긴 했습니다;; 그래도 꾸역꾸역 들으면서 수강완료를 했습니다 필기부분은 제가 까먹고 있었거나 하는 내용을 위주로 적었습니다. 저만 볼 생각에 대충 적었는데 보기..
2021-06-15(R 데이터 분석_3(가설검정)) R 가설검정 이론 바탕으로한 실습을 진행했습니다. 이번 강의를 통해 다소 헷갈렸던 가설검정을 정리 할수 있었던 좋은 시간이였습니다. 강의 들으면서 필기 했던 부분을 짧게나마 정리하여 간단하게 적어 보겠습니다. * 대립가설은 보통 양측검정 보다는 단측검정을 사용한다(가설 설정하기 전에 데이터를 대략 파악하여 관계를 설정한다) * 분할표는 주로 연관성을 볼때 사용한다(예를들어 흡연과 폐암의 연관성) -> 카이제곱 검정 * 대응표본 t검정은 A,B 집단에 속한 대상자가 같다 (예를들어 성형하기 전/후 처럼 대상자는 같고 전/후로 나뉜 경우를 말한다) * 모집단에 대해서 주의할점: 모집단은 관심이 있는 전체 집단이다. 경기도 20대 남성 평균키일 경우, 모집단은 경기도에 살고 있는 모든 20대 남성들의 키 모음..
2021-06-14(R 데이터 분석_2(시각화,전처리 기본기) & 태양열 예측22) R 오늘은 R 전처리를 위한 기본 다지기 강의를 들으면서 실습을 진행했습니다 part3는 기본기 다지기 과정이라서 실습코드는 따로 올리지 않을려고 합니다. 간략하게 학습내용을 적어보자면 산점도,막대그래프,박스플롯,결측치 처리,이상치 정제 그리고 마지막엔 한국복지패널 데이터를 가지고 분석해 보는 실습을 진행했습니다. 학습내용중에 조금 버벅거리고 낯선 함수가 있습니다. 바로 mutate 함수 입니다. 함수를 통해 변수를 생성하는 것과 직접 $로 변수를 생성하는 코드 과정이 조금 헷갈리는 것같아요 이 함수를 좀더 주의깊게 봐야 할것 같습니다. 내일은 part4 가설검정을 학습 합니다. 태양열예측 모든 변수를 넣었을때의 결과 값과 REV로 선별된 변수로 돌린 결과값이 상당히 차이나게 나왔습니다(파라미터는 같게)..
2021-06-11(R 데이터 분석_1 & 태양열 예측21 & 앞으로의 계획) 오늘 새롭게 계획을 세웠습니다. 그 첫걸음은 R! 작년에 R 강의 들으면서 공부하다가 중간에 중단을 하게 되었습니다. 살짝 늦은 감이 있는 것같지만 처음부터 강의 들으면서 공부하려고 합니다. 가장 베스트는 이번달 안에 태양열에너지 프로젝트 + R 온라인 완강이 목표입니다. 그래서 틈틈히 R공부하면서 태양프로젝트까지 같이 하고 있습니다. 오늘 R 배운 내용은 처음부터 하는 거라 가장 기본적인 것들이였습니다. 그래서 실습으로 업로드 하기엔 아닌것 같아서 이 기록장에 간단하게 열거로 기록하겠습니다. 1. R studio 설치 및 사용법 2. 데이터 분석 기본기 (아래 진도 나간 부분) 작년에 모두 배웠던 내용이였는지라 이해하기 편했습니다. 아 그리고 6월달 목표한 R + 프로젝트가 계획대로 끝난다면 바로 co..
2021-06-09(태양열 에너지 예측20) 코랩에서 forecast 패키지가 깔리지 않아서 파이썬에서 옮겨 실행했습니다. 그런데 결과 값이 워낙 엉망이라서 효용가치가 없었습니다 아마도 제가 잘못 했을 가능성이 다분한 것같은데..;; 현재는 FE의 수정을 통해서 어떻게 성능을 향상시킬까 고민중에 있습니다. rolling, decompose 등 생각 나는대로 시도 중인데 괄목할만한 내용은 없었습니다 ; SARIMAX을 통해서 정상성을 확보 못하는 데이터 일수도 있어서 이런 저런 시도중 입니다.
2021-06-08(태양열 에너지 예측19) tsfresh를 통한 특징추출을 시도해 봤습니다. 처음 들어보는 거라서 적용하는데 시간 좀 걸린 것같아요 특히 column_id가 어떤 역할을 하는지 몰라서 이를 어떻게 정할건지도 몰랐어요 그래서 임의로 year를 넣어 봤는데, year 변수의 수(유니크) 만큼 row가 생기고, 열이 6000개 이상 생기더라구요. 이때 직감을 했습니다. 제 계획은 변수를 뽑아서 원본에 붙이고 변수의 수를 rev or 다중공선성으로 줄일려고 했습니다. 그런데 row의 수가 id 수 만큼 생긴 걸로 보아서는 병합 조차 안되겠더라구요. 그 다음으로 시도 한게 auto_arima 입니다. 해봐야지 했던게 미루고 미뤄서 오늘 하게 되었습니다. 이것도 메모리 부족으로 중간에 끊기긴 했는데 이상한점은 그게 아니라, 분명 pdq 시작..