2022 AI SW 온라인 교육/AI 데이터 분석 트랙
[AI 데이터 분석] 데이터 분석을 위한 라이브러리 - 03. 데이터 조작 및 분석을 위한 Pandas 기본
parkes811
2022. 12. 15. 00:47
01 Series 데이터
- Pandas란?
- 행과 열을 가진 2차원 데이터와 대용량 데이터 처리에 효율적이고, 엑셀과 비슷한 데이터베이스 형태이다.
- Numpy의 array가 보강된 형태로 Data와 Index를 가지고 있다.
- Series : 값 ( Values ) 을 ndarray 형태로 가지고 있다. ( Pandas의 자료형 중 하나)
- data들은 인덱스와 값이 출력된다.
- Series의 첫 번째 특징 : dtype 인자로 데이터 타입을 지정할 수 있다.
- Series의 두 번째 특징 : 인덱스를 지정할 수 있고 인덱스로 접근이 가능하다.
- Series의 세 번째 특징 : Dictionary를 활용하여 Series 생성이 가능하다.
02 데이터프레임
- DataFrame : 여러 개의 Series가 모여 행과 열을 이룬 데이터이다.
- Dictionary를 활용해서 DataFrame을 만드는 방법
- set_index ( ' ' ) : 인덱스 번호를 원하는 값으로 변경할 수 있다.
- DataFrame - 속성을 확인하는 방법
- shape : 인덱스와 컬럼의 수를 알려준다
- DataFrame - Index, Columns 이름 지정하기
- DataFrame - 저장 및 불러오기
- csv파일, 엑셀 파일로 저장과 불러오기가 가능하다.
03 데이터 선택 및 변경하기
- 데이터 선택 - Indexing & Slicing
- loc : Location
- .loc : location의 약자
- .iloc : 암묵적인 loc
- iloc : Integer Location
- 구체적인 컬럼과 인덱스의 이름을 모를 경우에 사용된다.
- 데이터 선택 - 컬럼 선택
- 데이터 선택 - 조건 활용
- 데이터프레임 안에 들어있는 컬럼 값 뿐만 아니라 Value 값들을 정확히 알고 있다면 다양한 조건을 활용할 수 있다.
- 데이터 변경 - 컬럼 추가
- 데이터 변경 - 데이터 추가 / 수정
- 리스트로 추가하거나 딕셔너리로 데이터를 추가 할 수 있다.
- 데이터 변경 - NaN 컬럼 추가 : Not a Number
- 데이터 변경 - 컬럼 삭제
- inplace를 사용할 때는 원본 데이터 파일을 저장해놓은 후 사용하는 것이 좋다.