전체 글 (12) 썸네일형 리스트형 [머신러닝 지도학습] 데이터 전처리 데이터 전처리 머신러닝 과정 이해하기 데이터 수집 크롤링 또는 DB 데이터를 통하여 데이터 수집 데이터 분석 및 전 처리 수집한 데이터를 분석하고 머신러닝에 사용할 형태로 전처리 머신러닝 학습 머신러닝 모델을 사용하여 데이터를 학습 머신러닝 평가 학습된 머신러닝 모델을 평가용 데이터를 사용하여 평가 데이터 전 처리의 역할 머신러닝의 입력 형태로 데이터 변환 ( 특성 엔지니어링) 결측값 및 이상치를 처리 하여 데이터 정제. 학습용 및 평가용 데이터 분리. 왜 데이터 전 처리가 필요할까? - 데이터 변환 대부분의 머신러닝 모델은 숫자 데이터를 입력 받는다. 일반적으로 행렬 형태 입력. but 실제 데이터는 머신러닝 모델이 이해할 수 없는 형태로 되어있다. ( 이미지, 자연어, 시계열, 범주형 등 ) 따라서 .. [머신러닝 지도학습] 자료 형태의 이해 자료의 형태 자료의 형태를 알아야 하는 이유 머신러닝은 데이터라는 디지털 자료를 바탕으로 수행하는 분석방식. 따라서 데이터가 어떻게 구성되어 있을까? 확인해야 적합한 모델을 선택할 수 있다. 자료 형태 구분 범주형 자료와 수치형 자료의 구분과 자료의 숫자 표현 가능 여부는 전혀 다르다. 범주형 자료가 숫자로 표현되는 경우 남녀 성별 구분시, 남자를 1, 여자를 0으로 표현하는 경우, 숫자로 표현되었으나 범주형 자료. 수치형 자료를 범주형 자료로 변환하는 경우 나이 구분시, 나이 값은 수치형 자료지만 10 19세, 20 29세 등 나이 대에 따라 구간화 하면 범주형 자료. 수치형 자료 = 양적자료 수치로 측정이 가능한 자료. 예) 키, 몸무게, 시험점수, 나이 등2) 이산형 자료 셀 수 있는 관측값을 가짐.. Matplotlib 데이터 시각화 Matplotlib 데이터 시각화 그래프 Line plot Line Styles 기호 옵션 - 실선 -- 대시 선 -. 대시 점 선 : 점선 Markers 기호 의미 기호 의미 . 점 , 픽셀 o 원 s 사각형 v, 삼각형 1,2,3,4 삼각선 p 오각형 H,h 육각형 loc. 범례의 위치 옵션 문자형 code 문자형 code 'best' 0 'center left 6 'upper right' 1 'center right' 7 'upper left' 2 'lower center' 8 'lower left' 3 'upper center' 9 'lower right' 4 'cent.. 이전 1 2 3 4 다음