본문 바로가기

인공지능

[머신러닝 지도학습] 자료 형태의 이해

자료의 형태

자료의 형태를 알아야 하는 이유

머신러닝은 데이터라는 디지털 자료를 바탕으로 수행하는 분석방식. 따라서 데이터가 어떻게 구성되어 있을까? 확인해야 적합한 모델을 선택할 수 있다.

자료 형태 구분

범주형 자료와 수치형 자료의 구분과 자료의 숫자 표현 가능 여부는 전혀 다르다.

  • 범주형 자료가 숫자로 표현되는 경우
    남녀 성별 구분시, 남자를 1, 여자를 0으로 표현하는 경우, 숫자로 표현되었으나 범주형 자료.

  • 수치형 자료를 범주형 자료로 변환하는 경우
    나이 구분시, 나이 값은 수치형 자료지만 10

    19세, 20

    29세 등 나이 대에 따라 구간화 하면 범주형 자료.

  1. 수치형 자료 = 양적자료
    수치로 측정이 가능한 자료.
    예) 키, 몸무게, 시험점수, 나이 등2) 이산형 자료
    셀 수 있는 관측값을 가짐.
    예) 뉴스 글자수, 주문 상품 개수
  2. 연속형 자료
    연속적인 관측값을 가짐.
    예) 원주율(3.141592387....), 시간(09:12:23.21...)
  3. 범주형 자료 = 질적 자료
    수치로 측정이 불가능한 자료
    예) 성별, 지역, 혈액형 등2) 명목형 자료
    범주 사이의 순서에 의미가 없음
    예) 혈액형 (A, B, O, AB)
  4. 1) 순위형 자료
    범주 사이의 순서에 의미가 있음.
    예) 학점 ( A+, A, A-, B+, B ... )

범주형 자료의 요약

범주형 자료 요약 필요성.

다수의 범주가 반복해서 관측 또는 관측값의 크기보다 포함되는 범주에 관심이 있는경우.

1) 각 범주에 속하는 관측값의 개수를 측정

2) 전체에서 차지하는 각 범주의 비율 파악

3) 효율적으로 범주 간의 차이점을 비교 가능

적절한 분석자료.
예시) 도수분포표, 막대형 그래프

수치형 자료의 요약

수치로 구성되어 있기에 통계값을 사용한 요약이 가능함.
시각적 자료로는 이론적 근거 제시가 쉽지 않는 단점을 보완함.
=> 많은 양의 자료를 의미 있는 수치로 요약하여 대략적인 분포상태를 파악 가능.

  1. 평균(Mean)
    관측값들의 대표할 수 있는 통계값
    x = 모든관측값의 합계 / 총 자료의 개수.
    np.mean()
  • 관측값의 산술평균으로 사용
  • 통계에서 기초적인 통계 수치로 가장 많이 사용.
  • 극단적으로 큰값이나 작은 값의 영향을 많이 받음.(단점)
  1. 분산
    각 관측값이 자료의 평균으로부터 떨어진 정도.
    variance()

  2. 표준편차
    분산의 양의 제곱근. ( 관측값과 단위를 일치시키위해서)
    stdev()

적절한 분석자료.
예시) 히스토그램.

  • 자료의 분포를 알 수 있음.
  • 계급구간과 막대의 높이로 그램.
  • 도수, 상대도수를 막대 높이로 사용.

'인공지능' 카테고리의 다른 글

[머신러닝 지도학습] 데이터 전처리  (0) 2021.11.23