2021-02-01 공부기록(택시수요예측)

개인 공부하면서 오늘이 가장 집중력이 안 좋았습니다

왜냐면..

그전에 발생한 택시수요예측의 문제점들이 하~나도 물 꼬리를 틀지 못했기 때문이죠..

1. 각 zip_code별 카운트가 다르다! 예를들어 14:30분의 콜수와 15:00시의 콜수가 다른 거죠 왜냐면 각 지역별 콜수가 다르므로.. 그래서 timestep을 어떻게 해결할 건지를 정해야 했습니다

저의 목적은 30분 단위로 짜른 데이터를 가지고 과거 데이터 4시간을 timestep으로 묶으려 했었습니다

2. 메모리 초과

일단 5월 데이터를 30분 단위로 자르니까 15만 개 이상의 데이터가 나왔습니다

timestep을 해결했다 해도 많은 데이터? 그렇게 많다고는 생각 안 하지만 코랩의 메모리가 12기가 밖에 제공하지 않습니다 찾아보니까 몇 년 전에는 25기가 까지 되는 것 같던데 방침이 바뀐 것 같더라고요

pro로 업그레이드를 해버릴까 잠시 생각을 했지만.. 취준생에게는 월 만원이 꼬박꼬박 나간다는 게 부담스럽더라고요

메모리를 매일같이 12기가 넘어서 사용하는 것도 아닌데 말이죠 그래서

단념했습니다^^ ㅎㅎㅎㅎㅎ

그래서 이번 프로젝트는 포기를 했냐고 물으신다면..

Nope!!

투자한 시간이 얼만데 결과는 반드시 내야죠

성격 상 중간에 그만두는 것도 싫기 때문에 궁리를 해봤습니다

심플하게 데이터로 줄이기로 결국 결정했습니다

최대한 모든 데이터를 데려 갈려고 잔머리를 써봤지만 제 지식으로는 답이 나오질 않더라고요

오늘 새해 들어서 한숨을 가장 많이 쉬었습니다

데이터들 잘....ㄱ..ㅏ..;;

특정 데이터를 고르기 위해서 전에 했던 시각화 자료를 훑어보던 중 아래 시각화를 참고했습니다

일단 데이터를 그나마 최대한 확보해야 하므로 색깔이 진한 zip_code 7개를 골랐습니다

그 후 전 처리하고 스태킹을 실행했습니다

그 전에는 학습이 너무 오래 걸려서 코랩이 끊겼는데

이번엔 2초 컷으로 끝냈습니다

지금은 딥러닝도 실행 중입니다

7개 지역의 시간대별 카운트를 보니까 217개로 모두 동일한 하더라고요

위에 나온 zip_code는 해당 시간의 가장 마지막 zip_code입니다 엑셀로 보니까 일치하더라고요 :) (이제야 살 것 같다)

지금 딥러닝 결과 보니까 loss값이 200~500대에 머물러 있습니다

내일은 딥러닝 loss값을 어떻게 줄여야 하나 공부 좀 해야 할 것 같아요

마지막으로

오늘 혼자서 아이디어도 떠오르지 않고 뭐가 틀린 건지 구글링해도 안 나오니까 정말 깜깜하더라고요

여러 사람이 모여서 토의하고 공유하는 그런 모임이 정말 필요한 것 같더라고요.. 정말 혼자는 만만치 않습니다

제 자신과의 싸움인 것 같아요

H_record