본문 바로가기

728x90

전체 글

(219)
2021-10-6(따릉이 프로젝트 완성하기 11) 요약 트리계열 모델의 Ensemble 여러 모델을 실험한 결과 트레 계열 모델이 그나마 좋은 성능을 보입니다. 그래서 오늘은 이러한 모델을 가지고 ensemble을 해봤습니다. models = [ ('xgboost', XGBRegressor(random_state=2021)), ('lgb', lgb.LGBMRegressor(random_state=2021)), # ('rf', RandomForestRegressor(n_jobs = -1,random_state=2021)) ] params = { 'xgboost': { "gamma": np.linspace(0,0.5,20), "max_depth": range(2, 6), "learning_rate" : [0.001,0.01,0.1], "n_estimator..
2021-10-5(따릉이 프로젝트 완성하기 10) 요약 rush_hour 파생변수 추가 Dense Layer 추가 1. Rush_hour 파생변수 추가 #잔차분포 확인 Xtrain_predictions = best_model.predict(X_train[x_columns]) sns.displot(x=Xtrain_predictions-Y_train) plt.show() grid의 best model로 잔차 분포를 확인해 봤습니다. 제 생각에는 성능을 저하시키는 요인이 양 끝 부분에 차지한 loss들 때문이라고 생각했습니다. max, min 값의 인덱스를 가지고 데이터를 살펴보았습니다. min(Xtrain_predictions-Y_train),max(Xtrain_predictions-Y_train) (-162.76608924934504, 118.888187..
CNN 실습 모음 해당 실습은 iflearn "CNN_Fundamental" 강의에서 사용되었습니다. 실습 진행 순서대로 list-up 했습니다 1. Gradient Descent_01 Gradient_Desecent 내용은 딥러닝 수학 강의에서 배웠으므로 따로 이론을 정리하지 않았습니다. 2. Fashion_MNIST_02 2021.10.04 - [Data Diary] - 2021-10-04,05(딥러닝 CNN_기본 특징 설명) 2021-10-04(딥러닝 CNN_기본 특징 설명) CNN은 이미지를의 일 부분을 자동으로 뽑아서 featrue로 사용한다. 반면 머신러닝은 일일히 feature를 뽑기 때문에 효율이 떨어진다. 또한 가변적으로 feature들이 변하기 때문에 성능에도 큰 영향을 ghdrldud329.tistor..
2021-10-04,05(딥러닝 CNN_기본 특징 설명) 실습내용은 아래 링크에서 확인할 수 있습니다. 2021.10.05 - [실습 note] - CNN_Fundamental 실습 모음 CNN_Fundamental 실습 모음 해당 실습은 iflearn "CNN_Fundamental" 강의에서 사용되었습니다. 실습 진행 순서대로 list-up 했습니다 1. Gradient Descent_01 Gradient_Desecent 내용은 딥러닝 수학 강의에서 배웠으므로 따로 이론을 정리하.. ghdrldud329.tistory.com CNN은 이미지를의 일 부분을 자동으로 뽑아서 featrue로 사용한다. 반면 머신러닝은 일일히 feature를 뽑기 때문에 효율이 떨어진다. 또한 가변적으로 feature들이 변하기 때문에 성능에도 큰 영향을 주었다. 딥러닝은 Univ..
따릉이 자전거 이용 예측_dacon https://colab.research.google.com/drive/1CsnK5YrMDtSiAeQezPmw_7YPjZlg_8uS?hl=ko Google Colaboratory Notebook Run, share, and edit Python notebooks colab.research.google.com dacon의 따릉이 자전거 이용 예측 프로젝트입니다. 현재 기준으로 데이콘 리더보드에서 6위를 기록하고 있습니다. 감사합니다 :)
2021-09-30(딥러닝 CNN 2_Optimizer) 우리가 원하는 포인트는 가장 최저점을 나타내는 global point이다. 하지만 위 그림처럼 local 포인트에 빠지거나, 평평한 부분인 saddle 포인트를 만나면서 최저점이라고 인식하는 오류를 범할수 있다. 이를 해결하기 위해 다양한 optimizer들이 등장했다. 주요 Optimizer들이다. momentum은 GD값을 조정하고, adagrad,rmsprop은 lr을 조정한다. adam은 GD,lr 모두 조정하면서 최적점을 찾는다. *Momentum 과거의 GD에 Momentum 가중치를 적용하여 새로운 GD를 계산한다. 기존의 GD는 wt+1 = wt- GD 이다. momentum은 이 GD에다가 감마라는 가중치를 적용해 준다. 헷갈리지 말아야 할점은 새롭게 구한 gradient에 감마를 곱하는..
2021-09-26,29(딥러닝 CNN 1_활성화 함수의 이해 & 크로스 엔트로피) iflearn의 CNN 완벽가이드를 새로 시작했습니다. 초반 강의는 딥러닝 수학 강의 내용과 겹쳐서 내용은 생략했습니다. 활성화 함수 part부터 업로드 합니다. 활성화 함수는 사용하는 이유는 비선형성으로 만들기 위함이다. 활성화 함수가 없다면 선형함수로써 왼쪽처럼 구분이 된다. 하지만 오른쪽 처럼 비선형이 적용되면 과적합 문제가 발생하기 쉽다. 활성화 함수 별 사용용도를 아래 그림을 통해 확인한다. 각 활성화 함수별 사용 용도가 각각 다르다. *Sigmoid 함수 특성 X값이 양으로 100 이든 1000이든 출력은 1로 수렴이 된다. X값이 음수로 -100이든 -1000이든 출력은 0으로 수렴이 된다. 이때 sigmoid의 미분를 표현한 파란색 분포를 보겠다. X가 음수든 양수든 커질수록 어찌됐든 1과..
2021-09-28(따릉이 프로젝트 완성하기 9) *주요 요약 seasonal 추가 오존,미세먼지,초미세먼지 변수 -> 카테고리로 변경 지금까지 여러 파생변수를 만들어 보고 실험해 봤는데 대부분이 쓸모 없었습니다 아마 오늘을 끝으로 변수에 대한 FE는 마무리가 될것 같습니다. 다음 시간부터는 최적의 모델링을 찾는데 시간을 쓸것 같습니다 1. Seasonal 추가 시계열 기법중에 분해기법이 있습니다. 계절성 정보를 넣으면 예측에 유리할 것같아서 시도 해봤습니다. 제가 가지고 있는 데이터는 날짜 형식이 아니며, 순서도 뒤죽박죽이기 때문에 grouby로 hour 별 mean 값을 구한 뒤, 가짜 날짜 변수를 생성하여 seasonal을 구했습니다. 그 후 각 시간별 seasonal 정보를 매칭시켜서 원본 데이터에 적용했습니다. train_tem = train...