본문 바로가기

728x90

전체 글

(219)
OpenCV_1(기초 사용법) 강의 수강하면서 실습한 내용을 업로드합니다. 필기 내용은 코드와 함께 주석으로 입력했습니다. 한 실습 당 여러 방법이 섞여 있어서 주석처리를 예의주시 필요 실습 날짜: 2021-02-17, OpenCV 첫시작 영상 기본 조작 import cv2 import sys #특정 키를 가지고 창을 끌때 print('Hellow, opencv', cv2.__version__) # img= cv2.imread('cat.bmp') #img: image를 뜻함 img = cv2.imread('cat.bmp', cv2.IMREAD_GRAYSCALE) #BGR이미지를 gray로 열고 싶을때는 cv2.IMREAD_GRAYSCALE 삽입하기 #예외처리 if img is None: #영상 파일 불러오지 못했을때 실행되는 코드, ..
2021-02-15(데이콘_버스 승차인원예측 실습2) 버스 승차인원예측을 오늘 모두 끝냈습니다. 이번에도 앙상블기법이 나왔고 익숙한 XGBoosst,LightGBM,RandomForest가 등장했습니다. 변수 선택 Part에서 A/B test를 실습했습니다. 기본 변수를 정하고 하나씩 교차검증을 진행하는 내용이였는데 변수의 수가 100개 넘는데 이걸 하나씩 검증했다는 것자체에 좀 놀랬습니다 이렇게 까지해야 일등을 하는구나 생각이 들었어요 이 부분도 분명히 일일이 넣었다 뺐다 하지 않고 코딩으로 구현 하셨을텐데 개인적으로 어떻게 하셨을지 궁금하네요 A/B테스트를 말로만 들었지 실제로 실습과정에서 적용한 예시는 처음 본 것같습니다 하이퍼 파라미터 튜닝에도 저는 항상 그리드만 사용했는데 임의 탐색이라는 또다른 방법이 있었더라구요 그리드는 시간이 오래 걸리는 단점..
뉴욕 택시수요예측 뉴욕 택시수요예측 2015년 5월의 yellow 뉴욕택시 데이트를 사용해서 수요량을 예측합니다. 시간은 30분 단위로 진행되었으며 주 평가척도는 mae입니다. 외부데이터는 날씨 데이터를 참고했으며 LSTM, Gru의 timestep은 메모리 크기에 맞게 유동적으로 변경하면서 진행했습니다. 목차 1. EDA 1. 1 EDA(Region) 1.1.1 퍼센트 별 Trip_cnt 1.1.2 zip_code별 Trip_cnt 1.2 EDA(Time) 1.2.1 시간 1.2.2 요일 1.2.3 주말 2. 데이터전처리 2.1 target 분포 확인 / log 적용 2.2 날씨변수 추가 2.3 Scaling 2.4 PCA 생성 2.5 원핫인코딩 Train/Test Dataset 3. 모델 구축과 검증 3.1 XGBoo..
2021-02-15(데이콘_버스 승차인원예측 실습) 오늘은 제목처럼 버스 승차인원 예측 part를 시작했습니다 택시수요예측과 비슷한 부분이 있을거 같아서 선택했는데 예상처럼 낯선 느낌은 들지 않았어요 KBO는 야구의 야 자도 몰랐던 상태라 낯설었고 해서 시간이 많이 걸렸는데 이번거는 코드가 복잡하게 이뤄지지 않았고 설명도 좀더 자세히 되어 있어서 좋았습니다 EDA를 끝냈고 데이터 전처리 끝부분쯤 진행 하고 있는데 이번 실습에서 주목해야 할점은 파생변수인것 같아요 파생변수에 대해서 내부변수,외부변수 두 부분으로 나뉘어 있어요 배울점이 많았습니다 더이상 없을것같았던 내부변수에서 또다른 파생변수를 파생시켰고 외부변수를 가져오기까지의 인사이트가 돋보였습니다. 깔끔하게 정리된 내용만 봐도 이부분을 고심하기까지 얼마나 많은 시간을 들였을까 생각이 나더라구요 하지만 ..
2021-02-13 기록(데이콘_KBO 실습4) 오늘 실습을 끝냈습니다 연휴가 겹쳐서 4일정도가 소요가 되었습니다 마지막에 반발계수라는 개념이 나옵니다. 공인구의 반발계수를 낮추면 비거리가 감소하는 효과를 보입니다. 2019년도 상반기를 예측하는 이번 실습 내용에서는 2019년도부터 다운그레이드된 반발계수를 적용시켰더라구요 이부분이 좀 참신한거 같아요 반발계수를 적용하자는 아이디어 보다는 이를 도출하는 과정이 참신했어요 이해가 가지 않는 부분도 있어요 2018시즌에 1726개의 홈런이 있었어요 이 수를 나누기 2를 하더라구요 1762/2=863홈런으로 줄어 들었을때 얼마나 OPS가 줄어 드는가? 제 생각엔 1762/2 이 부분이 반발계수의 감소로 인한 홈런의 수를 추론 한거 같네요 2에 대한 따로 추가적인 설명은 없었어요 제 생각엔 홈런이다 아니다 두..
2021-02-12 기록(데이콘_KBO 실습3) #시간변수를 생성하느 함수 정의 def lag_function(df,var_name, past): # df = 시간변수를 생성할 데이터 프레임 # var_name= 시간변수 생성의 대상이 되는 변수 이름 # past= 몇 년 전의 성적을 생성할지 결정(정수형) df.reset_index(drop=True, inplace=True) #시간변수 생성 df['lag'+str(past)+'_'+var_name] = np.nan #결측치로 채워 넣어 놓는다 df['lag'+str(past)+'_'+'AB'] = np.nan for col in ['AB',var_name]: for i in range(0, (max(df.index)+1)): val=df.loc[(df['batter_name']==df['batter..
2021-02-11 기록(데이콘_KBO 실습2) 어제에 이어서 데이콘 KBO 실습의 데이터 전처리 부분을 진행 좀 했습니다 오늘은 어제 말씀드린 것처럼 오후에 실습을 진행했어요 얼마 못했다는 얘기죠 ㅠ 일단 오늘 작업한 내용중 이해안가는 코드는 없었어요 하지만 새로웠던 것은 인사이트를 뽑는 방식이였습니다. 제가 이 책을 산 이유 중 하나죠 아직 진도도 얼마 안나갔는데 그에 비해 꽤 많이 깨우친 것 같아요 데이터 핸들링과 인사이트의 견문이 좀 넓어진 느낌? 아 그리고 제가 방금 강의를 결제 했습니다 :) 총 다섯가지 패키지로 묶였는데 설 기념으로 세일을 하더라구요 그 패키지 안에 좀 비싸서 구매 망설였던 강의 2개나 포함되어 있었서 고민 하다가 어차피 필요한 내용이고 언젠가는 살거같다는 생각에 세일할때 구매 했습니다 gan,컴퓨터비전,자연어처리, 이 세..
2021-02-10 기록(데이콘_KBO 실습) 아침에 바로 일정을 정해 봤어요 어제 자소서는 끝났고 오늘부터 실습을 진행해서 다음 주 금요일까지 기간을 정했습니다 1개 단원 당 이틀을 생각하고 있는데 직접 하룻동안 해보니까 아~마도 더 걸릴 거 같아요 새로운 방법들과 이해 안가는 것들이 더러 있어서 중간마다 시간이 잡아먹더라고요 제 목적은 내 것으로 만드는 거지 그냥 기계적으로 실습 코드를 따라 치는게 아니기 때문이죠 내가 이해한 게 맞는지 확인받고 싶은데 그런 게 없으니까 살짝 아쉽긴 했습니다 첫 단원인 KBO 성적 예측을 시작했고 현재 EDA 파트는 끝났습니다. 확실히 택시수요예측을 한 덕인지 익숙하고 예전보다는 쉽게 느껴졌습니다 다음은 데이터 전처리를 할 예정인데 내일은 만두 빚으러 가야 하기 때문에 오래는 못할 것 같습니다 그럼 내일 경과보고..