728x90
오늘은 제목처럼 버스 승차인원 예측 part를 시작했습니다
택시수요예측과 비슷한 부분이 있을거 같아서 선택했는데
예상처럼 낯선 느낌은 들지 않았어요
KBO는 야구의 야 자도 몰랐던 상태라 낯설었고 해서 시간이 많이 걸렸는데
이번거는 코드가 복잡하게 이뤄지지 않았고 설명도 좀더 자세히 되어 있어서 좋았습니다
EDA를 끝냈고 데이터 전처리 끝부분쯤 진행 하고 있는데
이번 실습에서 주목해야 할점은 파생변수인것 같아요
파생변수에 대해서 내부변수,외부변수 두 부분으로 나뉘어 있어요
배울점이 많았습니다
더이상 없을것같았던 내부변수에서 또다른 파생변수를 파생시켰고
외부변수를 가져오기까지의 인사이트가 돋보였습니다. 깔끔하게 정리된 내용만 봐도
이부분을 고심하기까지 얼마나 많은 시간을 들였을까 생각이 나더라구요
하지만 이해가지 않은 코드는 있었습니다
f['interval']=interval_lst #interval_lst를 interval 변수로 생성
#interval 변수의 값을 문자형으로 변환 후 시:분:초 형태로 변환
f['interval']=f['interval'].astype(str).str[7:].replace("","00:00:00") #??
f['bus_route_id']=f['bus_route_id'].astype(object) #?
위에 이미지처럼 형태가 통일이 되지 않았습니다 이를 통일시키기 위해서 위 코드를 사용했는데
replace의 00:00:00에서 막히더라구요 제가 알고 있는 replace는 값 자체를 바꿔주는 것으로 알고있습니다
만일 Timedelta('0 days 01:26:44') 라면 replace는 01:26:44게 아니고 00:00:00이아닌가싶은거죠
밑에 object도 왜 해야하는지 아직 모르겠습니다 구글링을 잠깐 해봤는데 원하는 답은 못구했습니다
내일 실습이 끝나면 여러가지 실험을 하면서 알아봐야 할것같아요
728x90
'Data Diary' 카테고리의 다른 글
2021-02-17(OpenCV_1) (0) | 2021.02.17 |
---|---|
2021-02-15(데이콘_버스 승차인원예측 실습2) (0) | 2021.02.16 |
2021-02-13 기록(데이콘_KBO 실습4) (0) | 2021.02.13 |
2021-02-12 기록(데이콘_KBO 실습3) (0) | 2021.02.12 |
2021-02-11 기록(데이콘_KBO 실습2) (0) | 2021.02.11 |