전체 글 (219) 썸네일형 리스트형 공간분석 프로젝트_함수정리 공간분석 프로젝트에서 사용된 주요 전처리 함수 정리하여 포스팅하였습니다. import pandas as pd import numpy as np import os from datetime import datetime from collections import OrderedDict from shapely.geometry import Point import geopandas as gpd import requests from tqdm import tqdm ## 구급일지 data preprocessing # 나이대별 개월수 정의 age_dic = { '0세' : list(range(12)), '1세' : list(range(12,24)), '2세' : list(range(24,36)), '3세' : list(ra.. 사용자 사전 추가된 Mecab 형태소 분석 in Corab 단어 통일화 및 사용자 사전 구축에 따른 mecab 형태소 분석을 Class로 정의하였습니다. 클래스 내 함수 def _morph는 변수명이 하드코딩으로 되어 있으므로 수정이 필요합니다. 또한, 해당 함수는 형태소분석기로 추출된 단어가 사고유형, 장소, 시간 등에 따라 분류가 되는 코드입니다. 만일 추출된 단어별로 재 분류가 필요 없다면 _ morph 함수를 수정해야 합니다. # 사용자 사전 추가 및 형태소 분석 in corab class Corab_morph(): def __init__(self, df_path, ner_dic_path, user_dic_path, text_col = None, encoding = None): self.encoding = encoding self.df = self._re.. 선형회귀분석(조절, 매개, 스케일링) 선형회귀분석 중 조절변수, 매개변수, 스케일링에 따른 해석차이와 방법을 알고자 공부한 내용을 공유드려요 이번 기회를 통하여 여러분도 선형회귀분석의 새로운 관점을 얻고 가시길 바랍니다 :] 틀린내용이 있다면 댓글로 남겨주시면 감사하겠습니다 문장 유사도(1) 개요 대화체 문장간의 유사도를 구하여 추천 알고리즘으로 만들기 위한 목적으로 스터디 하고 있습니다. 임베딩는 크게 단어임베딩 VS 문장임베딩으로 나눌수가 있습니다. 단어임베딩은 각 단어에 대해서 vector 진행 후 유사도를 구하는데 이에 단점은 문맥을 고려 하지 않는다는 점이다. 문맥을 포함한 임베딩을 만들기 위해서 문장임베딩이 사용이 되는데, 여기에는 Doc2vec 혹은 Transformer과 같은 딥러닝의 임베딩을 예로 들수가 있다. 필자는 Word2vec(단어임베딩)를 사용하여 문장 전체 임베딩을 구하는 sentence2vec을 사용하여 실험해 보았습니다. 자세한 코드 내용은 https://github.com/stanleyfok/sentence2vec 에서 볼수 있습니다. 사용된 데이터는 유튜브 .. 도커,쿠버네티스의 환경구축(1) mlops에 관심을 가지게 되어 패캠의 머신러닝 서비스 구축을 위한 실전 MLOps 올인원 패키지 Online 이라는 강의를 수강하게 되었습니다. 생소한 단어와 개념이 많아서 블로그에 정리를 하고자 합니다. 만일 설명이 틀리거나 수정할 부분이 있다면 수정하도록 하겠습니다! 실습 자료는 아래 링크를 통해 볼수 있습니다. https://rigorous-firefly-d50.notion.site/MLOps-486a7bcd320b4e9f93a70b5691b88dd1 패스트캠퍼스 MLOps 실습자료 도커와 쿠버네티스 rigorous-firefly-d50.notion.site mlops 수행에 있어서 도커 & 쿠버네티스를 왜 사용해야하는가? AI 개발을 하다보면 가장 만나는 난관이 패키지의 버전 문제라고 생각한다... 211209_자연어 입문편(차원축소) 2021.12.09 - [NLP/패캠_자연어 입문] - 10. 차원축소 10. 차원축소 차원이 높아질수록 sparse하게 분포되므로 모델링하기가 어려워진다. 예를들어 Kmean는 고차원의 데이터를 다룰 경우 성능이 저하되며 해석도 난해하게 된다. 따라서 쓸데없이 공간만 차지 하는 ghdrldud329.tistory.com 211208_자연어 입문편(mse loss) 2021.12.09 - [NLP/패캠_자연어 입문] - 9.Mse Loss 9.Mse Loss Classification는 multinomial(다항분포)를 따른다고 가정하에 CE를 통한 minimize를 진행했다. 이산부포가 아닌 연속형 분포일 경우에는 뉴럴 네트워크의 출력이 가우시안 분포를 따른다는 가정하에 MSE가 ghdrldud329.tistory.com 10. 차원축소 차원이 높아질수록 sparse하게 분포되므로 모델링하기가 어려워진다. 예를들어 Kmean는 고차원의 데이터를 다룰 경우 성능이 저하되며 해석도 난해하게 된다. 따라서 쓸데없이 공간만 차지 하는 차원 때문에 성능 저하에 우려가 된다. 이를 해결하기 위해선 적절하게 저차원에서 실행하는 것이 옳다. *차원 축소 PCA는 어떤 샘플이 있을 때, 이를 잘 설명하는 새로운 축을 찾아내는 방법이다. 축이 분포를 잘 설명한다는 뜻은 무엇일까를 한번 생각해보자. 위 두 조건을 만족했을 때 설명을 잘 해준다고 볼수 있다. 검은점이 기존의 분포이며 이 것들이 빨간점으로 projection된다. 이때 빨간점끼리 서로 멀어지도록 해야 한다. 두번째 조건은 projection할 때, 검은점과 검은 선 사이의 거리의 합이 최소가 .. 이전 1 2 3 4 ··· 28 다음 목록 더보기