본문 바로가기

728x90

Data Diary

(166)

2021-09-02,04(따릉이 프로젝트 완성하기 1,2) 이틀 전 부터 따릉이 수요예측 프로젝트를 시작했습니다. 깜빡하고 당일에 업로드를 하지 않아서 지금 몰아서 적성하게 되었습니다. 일단 간단하게 EDA는 진행했고 전처리 과정을 진행 중입니다. 그런데 몇 시간 동안 매달려 해결 되지 않은 문제가 있어서 정체 되었습니다 본 데이터는 위와 같이 되어 있습니다. 결측치가 많습니다. 일괄적으로 bfill을 사용하려고 했으나 hour가 뒤죽박죽이라서 적용하지 못했습니다. 각 시간대 별 평균 값을 넣어 볼려고 아래처럼 시도를 했습니다. 위 코드를 실행해도 결측치가 그대로여서 이것저것 실험해 본 결과, fillna 같은 경우는 위 처럼 train[train 블라블라] 와 같은 필터? 조회형식으로는 채워지지 않는다는 걸 알게 되었습니다. train.fillna() 혹은 t..

2021-08-26(딥러닝 수학 12_mini batch & for one sample-Theory) 저번 포스팅 딥러닝 수학10에 이어서 포스팅 하겠습니다. *실습링크 2021.09.04 - [실습 note] - 딥러닝 수학 실습과제 모음 9~12 딥러닝 수학 실습과제 모음 9~12 실습파일이 없는 줄 알았는데 있더라구요 그래서 쌓여 있는 실습을 진행했습니다. 각 구분선에 따라 이론내용과 실습을 분리했습니다. 순서는 맨 위부터 아래 순입니다. 2021.08.19 - [Data 일기] - 20 ghdrldud329.tistory.com 1. mini batch 3번의 iteration 학습 과정을 보려 봤을 때, 각 cost function에 projection 방향으로 다가가고 있다. interation 돌릴 때마다 cost function이 달라진다는 점 헷갈리지 말아야 한다. 계속 interatio..

2021-08-24(딥러닝 수학11_Cost function & Feature Scaling) 저번 딥러닝 수학9에서 배웠던 V 형태의 loss function들을 어떻게 합쳐서 cost function으로 만드는지와 합쳐졌을때 이상적인 학습이 어떤 모습을 보일지 자세히 알아본다. *실습링크 2021.09.04 - [실습 note] - 딥러닝 수학 실습과제 모음 9~12 딥러닝 수학 실습과제 모음 9~12 실습파일이 없는 줄 알았는데 있더라구요 그래서 쌓여 있는 실습을 진행했습니다. 각 구분선에 따라 이론내용과 실습을 분리했습니다. 순서는 맨 위부터 아래 순입니다. 2021.08.19 - [Data 일기] - 20 ghdrldud329.tistory.com 1. Cost function 두개 data sample에 대해서 각각 loss function이 왼쪽과 같이 그러져 있다. 이 두개의 los..

2021-08-20,23,30,31(태블로 최종편_포트폴리오 만들기) *본 학습 내용은 iflearn의 태블로 강의입니다. 1. 주제에 적합한 시각화 방법(1)-시간의 흐름에 따른 화면 구성하기 1-1)라인 차트 *완성본 미리보기 1 step) 누적매출 추이 만들기 시도가 경기도라면 매출값을 출력하고 아니면 null을 출력하는 계산식 필드를 만든다. 같은 원리로 서울 매출 계산식 필드를 생성해 준다. 경기도 매출, 서울특별시 매출을 행 선반에 올린 뒤 누계로 변경한 후 이중축&축 동기화 적용한다. 2019년 12월을 기준으로 증가 한다는 의미를 전달해주기 위해서 x축의 참조선을 선택 후 위 처럼 설정한다. 2 step) 누적매출 경기도 누적 매출 -> 텍스트에 삽입 후 서울 누적 매출은 떠블클릭한다. 서식을 이용하여 위 처럼 모양을 갖춘 뒤 도수 설명은 나오지 않도록 설정..

2021-08-19(딥러닝수학10_Loss function & Gradient Descent) *실습링크 2021.08.26 - [Data 일기] - 2021-08-26(딥러닝 수학 11_mini batch & for one sample-Theory) 2021-08-26(딥러닝 수학 11_mini batch & for one sample-Theory) 1. mini batch 3번의 iteration 학습 과정을 보려 봤을 때, 각 cost function에 projection 방향으로 다가가고 있다. interation 돌릴 때마다 cost function이 달라진다는 점 헷갈리지 말아야 한다. 계속 intera.. ghdrldud329.tistory.com 1.Single-variate Linear Regression (y= ax+b) -딥러닝 수학 1~8까지는 y =theta*x에 대한 내용..

2021-08-18,20(태블로_고급 맛보기) 2편 *학습 내용은 iflearn의 태블로 무료 강의 고급 맛보기 편입니다. 3. 효율적인 대시보드 만들기(1)-제대로 계획 세우기 보고서를 받는 대상이 시간 관리에 타이트한 사람이거나 결과를 우선시 하는 편이라면 아래와 같이 매개변수를 활용하여 요약하는게 좋다. 3-1) 요약 대시보드 Year 와 month 변경에 따라 당월, 전월,전년 동월 매출이 나타나도록 만들기 1 step) 당월매출 Year 와 month의 매개변수를 만드는데 모두 문자열의 목록형으로 생성한다. 이를 계산된 필드로 엮는다. (날짜를 정수형태로 바꿔주는 DATAPART를 사용) 계산된 필드 생성 후 위 처럼 필터와 행 선반 등 설정 후 서식을 통해 정리한다. 2 step) 전월매출 당월의 계산된 필드내용을 재활용 할수 없다. 2021년..

2021-08-13(태블로_고급 맛보기) 1편 *학습 내용은 iflearn의 태블로 무료 강의 고급 맛보기 편입니다. 1. 대시보드 액션 적용(1) 1-1) 필터 위 처럼 설정하면, 필터 2를 선택했을때 필터1에서는 고객 세그먼트 및 월간 기준으로만 필터를 적용 한다는 의미이다. 2018년 기업고객 12월을 클릭하면 상단에는 각 년도 별 기업고객(고객 세그먼트)의 월간(월 주문일자) 매출을 보여준다. 1-2) 하이라이트 위 처럼 매출을 레이블에 넣은 후 하이라이트를 선택하면 평사시엔 나타지 않다가 하이라이트가 레이블이 보인다. 아래는 대시보드에서 하이라이트 거는 방법이다. 대시보드의 동작 누른 후 추가 -> 하이라이트를 선택하여 위처럼 설정하면 아래처럼 마우스 오버 시 강조되는 부분만 레이블을 볼수 있다. 1-3) URL 이동 클릭 시, 위 내용만 ..

2021-08-17(딥러닝수학 9_Vectorization2 &batch Gradient Descent ) 1. Vectorization 파란색 박스까지만 취급을 한다면 빨간색 벡터처럼 나온다. 즉, 1번 loss, 2번 loss,.., n번 loss를 벡터화된 모습일 것이다. 이때 cost는 어떤 역할을 할까? forward 일때는 평균값을 구하여 스칼라값이 나오고, backward일때는 1/n값이 아래처럼 계산 될것이다. 각 loss들에 대해서 1/n씩 곱해진다. n=10이면 1/10씩 각 loss에 곱해진다. data의 값이 크면 loss도 크기 때문에 위에 그림 세타5처럼 튀는 값이 생길수 있다. 이러한 큰 수의 data를 이상치라고도 불리는데 FE과정에서 이상치를 제거하기도 한다. 하지만 무조건 제거하는 건 좋지 않다. 왜냐하면 소수의 case를 제거 하는 것과 마찬가지이기 때문이다. 가장 best ..

목록 더보기

티스토리툴바