2022 AI SW 온라인 교육/AI 데이터 분석 트랙

[AI 데이터 분석] 머신러닝 시작하기 - 01. 자료 형태의 이해

parkes811 2022. 12. 15. 02:15
01 자료의 형태

 

  • 자료의 형태를 알아야 하는 이유?

- 머신러닝은 데이터라는 디지털 자료를 바탕으로 수행하는 분석방식이다.

- 자료의 형태를 파악함은 머신러닝을 사용하기 위한 필수 과정으로 아래 물음에 대한 답을 얻을 수 있다.

 

  • 자료 형태 구분

 

  • 수치형 자료와 범주형 자료

 

  • 자료의 형태 구분 시 주의해야 할 점

- 범주형 자료와 수치 자료의 구분을 자료의 숫자 표현 가능 여부로 구분해서는 안된다.

 

 

02 범주형 자료의 요약

 

  • 범주형 자료의 요약이 필요한 이유는 ?

- 다수의 범주가 반복해서 관측될 경우나 관측값의 크기보다 포함되는 범주에 관심이 클 경우 요약이 필요하다.

 

- 범주형 자료의 요약을 하는 방식

 

  • 범주형 자료에 대표적으로 사용되는 도수분포표

 

 

  • 도수분포표의 정의

 

03 수치형 자료의 요약

 

  • 수치를 통한 자료 요약

 

  • 수치형 자료의 통계값 - 평균 ( Mean )

- 평균의 특징은 관측값의 산술평균으로 사용된다.

- 통계에서 기초적인 통계 수치로 가장 많이 사용된다.

- 극단적으로 큰 값이나 작은 값의 영향을 많이 받는다.

 

  • 수치형 자료의 통계값 - 퍼진 정도의 측도

 

- 분산이 커질수록 퍼진 정도도 많이 퍼지게 된다.

 

  • 분산

- 분산에 대한 모듈은 파이썬 statistics 라이브러리에 variance 모듈을 사용한다.

 

 

  • 표준편차

- 표준편차에 대한 모듈은 파이썬 statistics 라이브러리에 stdev 모듈을 사용한다.