전체 글 (219) 썸네일형 리스트형 2021-07-02(R_은행 거래 데이터를 활용한 마케팅 효과 실습) 본 실습 내용은 패스트캠퍼스 강의임을 먼저 알립니다 ~! 고객 데이터를 통해서 은행상품의 마케팅 효과 알아보는 실습 내용입니다. 변수는 총 20개이며 맨끝 데이터가 target 입니다. 전처리 및 모델 적용내용은 실습코드 안에 주석으로 했습니다. rawdata1 NA 변환 sum(rawdata1=='unknown') rawdata1[rawdata1=='unknown'] 2021-07-01(R_대학원 입시 합격률 실습) 본 실습 내용은 패스트캠퍼스 강의임을 먼저 알립니다 ~! 실습 내용은 대학원 입시 합격률 예측입니다. 아래는 학생들 성적과 관련된 것 데이터이며 target은 Chan of admit입니다. 연속형 데이터를 임의로 정한 기준으로 통해 0,1로 구분하여 분류하는 분류 문제로도 실습이 진행되었습니다. 데이터 전처리 과정보다는 머신러닝에 초점을 맞추어 졌습니다. 필기은 코드 내에 주석으로 처리되어있습니다. #파일 로드 rawdata1 2021-06-30(R 데이터 분석_6(SVM)& 태양열예측 마지막) R R에서의 SVM 실습 내용입니다! 자세한 그래프는 생략했고 내용물만 업로드 합니다 library(caret) rawdata 동서발전 태양광 발전량 예측 프로젝트_dacon 본 내용은 Dacon의 동서발전 태양광 발전량 예측 AI 경진대회에 참가한 프로젝트 내용입니다. 주어진 데이터를 통해 태양광 발전량 예측 모델을 만들어 봤습니다. 아래는 Data& Target Data 일부분을 캡처한 그림입니다. 1. Import and Libraries !pip install tsfresh import pandas as pd import numpy as np import matplotlib.pyplot as plt import os from tqdm import tqdm # Ignore the warnings import warnings warnings.filterwarnings('ignore') # 경고 뜨지 않게 설정 # System related and data input con.. 2021-06-25(태양열예측28) 빨간색 부분이 오늘 진행한 내용입니다. 태양열 프로젝트 1차 시도. 랜덤 포레스트 log 상태에서 스케일링에 따른 변화 -> 변화 없음 2차 시도. log 아닌 상태에서 스케일링에 따른 변화 ->Normalizer 3차 시도. 변수의 차분 변화에 따른 성능 측정 ->변수 2개 이상 동시 사용 시 성능 저하 발생 4차 시도. extracted_features 활용 -> 모든 변수 사용시 성능 저하 발생하여 VIF 및 RFECV 실행 extracted_features 함수를 통해 얻은 변수들 중 의미 있어 보이는 120여 개 피처들로 예측한 그래프입니다. 성능값이 23점을 기록했습니다;; 120여개의 피처들을 vif를 통해 추리고, 추린 값을 refecv를 통해 또 추려봤습니다. 120개의 피처를 refec.. 2021-06-24(태양열예측27) 빨간색 부분이 오늘 진행한 내용입니다. 태양열 프로젝트 1차 시도. 랜덤 포레스트 log 상태에서 스케일링에 따른 변화 -> 변화 없음 2차 시도. log 아닌 상태에서 스케일링에 따른 변화 ->Normalizer 3차 시도. 변수의 차분 변화에 따른 성능 측정 ->변수 2개 이상 동시 사용 시 성능 저하 발생 4차 시도. extracted_features 활용 -> 모든 변수 사용시 성능 저하 발생하여 VIF 및 RFECV 실행 extracted_features 함수를 통해 얻은 변수들 중 의미 있어 보이는 120여 개 피처들로 예측한 그래프입니다. 성능값이 23점을 기록했습니다;; 120여개의 피처들을 vif를 통해 추리고, 추린 값을 refecv를 통해 또 추려봤습니다. 120개의 피처를 refec.. 2021-06-23(태양열예측26) 빨간색 부분이 오늘 진행한 내용입니다. 태양열 프로젝트 1차 시도. 랜덤 포레스트 log 상태에서 스케일링에 따른 변화 -> 변화 없음 2차 시도. log 아닌 상태에서 스케일링에 따른 변화 ->Normalizer 3차 시도. 변수의 차분 변화에 따른 성능 측정 ->변수 2개 이상 동시 사용 시 성능 저하 발생 4차 시도. extracted_features 활용 -> 모든 변수 사용시 성능 저하 발생하여 VIF 및 RFECV 실행 extracted_features 함수를 통해 얻은 변수들 중 의미 있어 보이는 120여 개 피처들로 예측한 그래프입니다. 성능값이 23점을 기록했습니다;; 120여개의 피처들을 vif를 통해 추리고, 추린 값을 refecv를 통해 또 추려봤습니다. 120개의 피처를 refec.. 2021-06-22(R 데이터 분석_6(랜덤포레스트)& 태양열예측25) R *Decision tree 위와 같은 데이터가 있을때 의사결정나무를 사용한다면 아래와 같은 모양으로 나타낼수 있다. 각 피처들을 노드로 사용하여 분류에 분류를 거듭한다. 가장 처음에 나온 노드인 날씨테스트는 어떤 기준으로 선정 된것인가? 엔트로피를 사용하여 노드의 순서를 정할수 있다. 각 노드 별 무질서를 구할때 엔트ㅗ피를 사용하는데, 무질서는 양성,음성이 뒤섞여 있는 있을때 높은 수치를 보인다. 날씨는 맑을때 배드민턴을 친다는 사람이 4명이면 무질서는 0(난잡하지 않다), 반면 친다는 사람 2명, 아닌 사람 2명씩 있으면 막 뒤섞여 있으므로 무질서하다. 특히 이처럼 5:5 비율일 경우에는 무질서가 가장 높게 측정 된다. 한쪽으로 치우칠수록 분류가 잘되는 방향이기 때문이다. 값이 1/2 일때 가장 높.. 이전 1 ··· 8 9 10 11 12 13 14 ··· 28 다음