본문 바로가기

Data Diary

2021-10-5(따릉이 프로젝트 완성하기 10)

반응형

요약

  • rush_hour 파생변수 추가
  • Dense Layer 추가

1. Rush_hour 파생변수 추가

#잔차분포 확인
Xtrain_predictions = best_model.predict(X_train[x_columns])
sns.displot(x=Xtrain_predictions-Y_train)
plt.show()

grid의 best model로 잔차 분포를 확인해 봤습니다. 제 생각에는 성능을 저하시키는 요인이 양 끝 부분에 차지한 loss들 때문이라고 생각했습니다. max, min 값의 인덱스를 가지고 데이터를 살펴보았습니다.

 

min(Xtrain_predictions-Y_train),max(Xtrain_predictions-Y_train)
(-162.76608924934504, 118.88818750028724) #245, 1387

 

df.loc[[245,1387]]

위 결과는 rush_hour를 미리 적용한 결과물입니다. 처음에는 출퇴근 시간인 18시 ,8시에 가장 많은 Loss가 있었습니다. 그래서 rush hour시간에 급증하는 포인트를 주기 위해서 아래와 같은 코드로 변수를 추가했습니다.

 

# 출근 시간: 7,8,9  퇴근시간:17,18,19시 기준
df['rush_hour'] = df['hour'].apply(lambda x: 1 if x== 7 or x==8 or x==9 
                                   or x==17 or x==18 or x==19 else 0 )

해당 변수를 넣은 후 돌린 결과 리더보드에서 상위 10% 안에 들수 있었습니다. 해당 변수의 lgb 피처 중요도를 보면 낮은 수치를 기록했습니다.

이는 아마 출퇴근 시간의 데이터가 적어서 그런게 아닐까 생각합니다. 하지만 미처 해결하지 못한 문제점이 있습니다.   

해당 이미지의 결과를 보면, 16시에 예측값이 target 보다 아주 적게 예측을 했고, 8시에는 37보다 크게 예측을 했습니다. 변수를 보면 이둘의 차이를 설명해줄만한 것이 없습니다. 제 생각엔 8시인 출근 피크 시간에 수요가 적다는 것은 아침 유동인구가 비교적은 주말이나 공유일일 확률이 크다고 봅니다. 줄곧 고민을 해보았지만 아직까지는 실마리를 찾지 못했습니다. Feature들을 가지고 군집화를 통해 내가 모르고 있던 구분을 해주지 않을까 시도 해봤지만 이 역시 잘 되지 않았습니다. 새로운 변수를 찾기 위해서 Dense층의 비선형을 이용하면 어떨가 싶어서 Dense를 추가했습니다.

 

 

2. Dense Layer 추가

import os 
from tensorflow.keras.layers import Dense, Flatten, Input,Dropout , BatchNormalization
from tensorflow.keras import regularizers
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import ModelCheckpoint,ReduceLROnPlateau,EarlyStopping

MODEL_SAVE_FOLDER_PATH = '/content/weights/' 
if not os.path.exists(MODEL_SAVE_FOLDER_PATH): 
  os.mkdir(MODEL_SAVE_FOLDER_PATH)

model_path = MODEL_SAVE_FOLDER_PATH + 'weights.{epoch:02d}-{val_loss:.2f}.hdf5'

#ModelCheckpoint
mcp_cb = ModelCheckpoint(filepath=model_path, monitor='val_loss', 
                         save_best_only=True, save_weights_only=False, mode='min', verbose=1)

#ReduceLROnPlateau
rlr_cb = ReduceLROnPlateau(monitor='val_loss', factor=0.3, patience=15, mode='min', verbose=1)

#EarlyStopping
ely_cb = EarlyStopping(monitor='val_loss', patience=20, mode='min', verbose=1)


def create_model():
  input_tensor = Input(shape=(X_train[x_columns].shape[1],))
  x = Flatten()(input_tensor)
  x = Dense(12, activation='relu',kernel_regularizer=regularizers.l2(0.001))(x)
  # x= BatchNormalization()(x)
  x = Dense(10, activation='relu',kernel_regularizer=regularizers.l2(0.001))(x)
  # x= BatchNormalization()(x)
  output = Dense(1, activation='relu')(x)
  model = Model(inputs=input_tensor, outputs=output)
  return model

def train():
  model = create_model()
  model.compile(optimizer=Adam(0.001), loss = 'mse', metrics=['mse'])
  history= model.fit(X_train[x_columns],Y_train,
                      epochs=200,
                      batch_size=4,
                      validation_data=(X_test[x_columns], Y_test),
                    callbacks=[mcp_cb,ely_cb])
  return history
history = train()

 

#그래프 시각화
plt.figure(figsize=(10,10))
plt.plot(history.history['mse'], label='train_mse')
plt.plot(history.history['val_mse'],label='val_mse')
plt.legend()
plt.show()

 

from tensorflow.keras.models import load_model

#학습된 가중치 불러오기
weights_path = '/content/weights/weights.35-2130.14.hdf5'
def load_trained_model(weights_path):
   model = create_model()
   model.load_weights(weights_path)
   return model
model = load_trained_model(weights_path)

#Test Predict
dense_model=model.predict(test[x_columns])
submission.iloc[:,1] = dense_model
submission.set_index("id")
submission.to_csv('dense_2130.csv', index=False)

Dense를 이용해본 결과, 39점을 받으면서 기본보다 안좋은 성능을 받았습니다. 지금까지 많은 모델을 실험해 본 결과  트리계열의 모델이 가장 좋은 성능을 보이고 있습니다. 다음 시간에는 트리계열의 모델로만 구성된 ensemble 및 stacking model을 시도해볼 계획입니다.  

 

 

 

 

 

 

 

 

반응형