2022 AI SW 온라인 교육/AI 데이터 분석 트랙

[AI 데이터 분석] 데이터 분석을 위한 라이브러리 - 03. 데이터 조작 및 분석을 위한 Pandas 기본

parkes811 2022. 12. 15. 00:47
01 Series 데이터

 

  • Pandas란?

- 행과 열을 가진 2차원 데이터와 대용량 데이터 처리에 효율적이고, 엑셀과 비슷한 데이터베이스 형태이다.

 

- Numpy의 array가 보강된 형태로 Data와 Index를 가지고 있다.

 

  • Series : 값 ( Values ) 을 ndarray 형태로 가지고 있다. ( Pandas의 자료형 중 하나)

- data들은 인덱스와 값이 출력된다.

 

  • Series의 첫 번째 특징 : dtype 인자로 데이터 타입을 지정할 수 있다.

 

  • Series의 두 번째 특징 : 인덱스를 지정할 수 있고 인덱스로 접근이 가능하다.

 

  • Series의 세 번째 특징 : Dictionary를 활용하여 Series 생성이 가능하다.

 

02 데이터프레임

 

  • DataFrame : 여러 개의 Series가 모여 행과 열을 이룬 데이터이다.

 

  • Dictionary를 활용해서 DataFrame을 만드는 방법

- set_index ( ' ' ) : 인덱스 번호를 원하는 값으로 변경할 수 있다.

 

  • DataFrame - 속성을 확인하는 방법

- shape : 인덱스와 컬럼의 수를 알려준다

 

  • DataFrame - Index, Columns 이름 지정하기

 

  • DataFrame - 저장 및 불러오기 

- csv파일, 엑셀 파일로 저장과 불러오기가 가능하다.

 

03 데이터 선택 및 변경하기

 

  • 데이터 선택 - Indexing & Slicing

 

  • loc : Location

- .loc : location의 약자

- .iloc : 암묵적인 loc

 

  • iloc : Integer Location

- 구체적인 컬럼과 인덱스의 이름을 모를 경우에 사용된다.

 

  • 데이터 선택 - 컬럼 선택

 

  • 데이터 선택 - 조건 활용

- 데이터프레임 안에 들어있는 컬럼 값 뿐만 아니라 Value 값들을 정확히 알고 있다면 다양한 조건을 활용할 수 있다.

 


 

  • 데이터 변경 - 컬럼 추가

 

  • 데이터 변경 - 데이터 추가 / 수정

- 리스트 추가하거나 딕셔너리로 데이터를 추가 할 수 있다.

 

  • 데이터 변경 - NaN 컬럼 추가 : Not a Number

 

  • 데이터 변경 - 컬럼 삭제 

- inplace를 사용할 때는 원본 데이터 파일을 저장해놓은 후 사용하는 것이 좋다.