데이터분석 2

[AI 데이터 분석] 머신러닝 시작하기 - 01. 자료 형태의 이해

01 자료의 형태 자료의 형태를 알아야 하는 이유? - 머신러닝은 데이터라는 디지털 자료를 바탕으로 수행하는 분석방식이다. - 자료의 형태를 파악함은 머신러닝을 사용하기 위한 필수 과정으로 아래 물음에 대한 답을 얻을 수 있다. 자료 형태 구분 수치형 자료와 범주형 자료 자료의 형태 구분 시 주의해야 할 점 - 범주형 자료와 수치 자료의 구분을 자료의 숫자 표현 가능 여부로 구분해서는 안된다. 02 범주형 자료의 요약 범주형 자료의 요약이 필요한 이유는 ? - 다수의 범주가 반복해서 관측될 경우나 관측값의 크기보다 포함되는 범주에 관심이 클 경우 요약이 필요하다. - 범주형 자료의 요약을 하는 방식 범주형 자료에 대표적으로 사용되는 도수분포표 도수분포표의 정의 03 수치형 자료의 요약 수치를 통한 자료 ..

[AI 데이터 분석] 데이터 분석을 위한 라이브러리 - 03. 데이터 조작 및 분석을 위한 Pandas 기본

01 Series 데이터 Pandas란? - 행과 열을 가진 2차원 데이터와 대용량 데이터 처리에 효율적이고, 엑셀과 비슷한 데이터베이스 형태이다. - Numpy의 array가 보강된 형태로 Data와 Index를 가지고 있다. Series : 값 ( Values ) 을 ndarray 형태로 가지고 있다. ( Pandas의 자료형 중 하나) - data들은 인덱스와 값이 출력된다. Series의 첫 번째 특징 : dtype 인자로 데이터 타입을 지정할 수 있다. Series의 두 번째 특징 : 인덱스를 지정할 수 있고 인덱스로 접근이 가능하다. Series의 세 번째 특징 : Dictionary를 활용하여 Series 생성이 가능하다. 02 데이터프레임 DataFrame : 여러 개의 Series가 모여..