01 자료의 형태
- 자료의 형태를 알아야 하는 이유?
- 머신러닝은 데이터라는 디지털 자료를 바탕으로 수행하는 분석방식이다.
- 자료의 형태를 파악함은 머신러닝을 사용하기 위한 필수 과정으로 아래 물음에 대한 답을 얻을 수 있다.
- 자료 형태 구분
- 수치형 자료와 범주형 자료
- 자료의 형태 구분 시 주의해야 할 점
- 범주형 자료와 수치 자료의 구분을 자료의 숫자 표현 가능 여부로 구분해서는 안된다.
02 범주형 자료의 요약
- 범주형 자료의 요약이 필요한 이유는 ?
- 다수의 범주가 반복해서 관측될 경우나 관측값의 크기보다 포함되는 범주에 관심이 클 경우 요약이 필요하다.
- 범주형 자료의 요약을 하는 방식
- 범주형 자료에 대표적으로 사용되는 도수분포표
- 도수분포표의 정의
03 수치형 자료의 요약
- 수치를 통한 자료 요약
- 수치형 자료의 통계값 - 평균 ( Mean )
- 평균의 특징은 관측값의 산술평균으로 사용된다.
- 통계에서 기초적인 통계 수치로 가장 많이 사용된다.
- 극단적으로 큰 값이나 작은 값의 영향을 많이 받는다.
- 수치형 자료의 통계값 - 퍼진 정도의 측도
- 분산이 커질수록 퍼진 정도도 많이 퍼지게 된다.
- 분산
- 분산에 대한 모듈은 파이썬 statistics 라이브러리에 variance 모듈을 사용한다.
- 표준편차
- 표준편차에 대한 모듈은 파이썬 statistics 라이브러리에 stdev 모듈을 사용한다.
'2022 AI SW 온라인 교육 > AI 데이터 분석 트랙' 카테고리의 다른 글
[AI 데이터 분석] 머신러닝 시작하기 - 03. 지도학습 - 회귀 (0) | 2022.12.15 |
---|---|
[AI 데이터 분석] 머신러닝 시작하기 - 02. 데이터 전 처리하기 (0) | 2022.12.15 |
[AI 데이터 분석] 머신러닝 시작하기 - 00. 인공지능/머신러닝 개론 (0) | 2022.12.15 |
[AI 데이터 분석] 데이터 분석을 위한 라이브러리 - 04. Matplotlib 데이터 시각화 (2) | 2022.12.15 |
[AI 데이터 분석] 데이터 분석을 위한 라이브러리 - 03. 데이터 조작 및 분석을 위한 Pandas 기본 (0) | 2022.12.15 |