01 Series 데이터
- Pandas란?
- 행과 열을 가진 2차원 데이터와 대용량 데이터 처리에 효율적이고, 엑셀과 비슷한 데이터베이스 형태이다.
- Numpy의 array가 보강된 형태로 Data와 Index를 가지고 있다.
- Series : 값 ( Values ) 을 ndarray 형태로 가지고 있다. ( Pandas의 자료형 중 하나)
- data들은 인덱스와 값이 출력된다.
- Series의 첫 번째 특징 : dtype 인자로 데이터 타입을 지정할 수 있다.
- Series의 두 번째 특징 : 인덱스를 지정할 수 있고 인덱스로 접근이 가능하다.
- Series의 세 번째 특징 : Dictionary를 활용하여 Series 생성이 가능하다.
02 데이터프레임
- DataFrame : 여러 개의 Series가 모여 행과 열을 이룬 데이터이다.
- Dictionary를 활용해서 DataFrame을 만드는 방법
- set_index ( ' ' ) : 인덱스 번호를 원하는 값으로 변경할 수 있다.
- DataFrame - 속성을 확인하는 방법
- shape : 인덱스와 컬럼의 수를 알려준다
- DataFrame - Index, Columns 이름 지정하기
- DataFrame - 저장 및 불러오기
- csv파일, 엑셀 파일로 저장과 불러오기가 가능하다.
03 데이터 선택 및 변경하기
- 데이터 선택 - Indexing & Slicing
- loc : Location
- .loc : location의 약자
- .iloc : 암묵적인 loc
- iloc : Integer Location
- 구체적인 컬럼과 인덱스의 이름을 모를 경우에 사용된다.
- 데이터 선택 - 컬럼 선택
- 데이터 선택 - 조건 활용
- 데이터프레임 안에 들어있는 컬럼 값 뿐만 아니라 Value 값들을 정확히 알고 있다면 다양한 조건을 활용할 수 있다.
- 데이터 변경 - 컬럼 추가
- 데이터 변경 - 데이터 추가 / 수정
- 리스트로 추가하거나 딕셔너리로 데이터를 추가 할 수 있다.
- 데이터 변경 - NaN 컬럼 추가 : Not a Number
- 데이터 변경 - 컬럼 삭제
- inplace를 사용할 때는 원본 데이터 파일을 저장해놓은 후 사용하는 것이 좋다.
'2022 AI SW 온라인 교육 > AI 데이터 분석 트랙' 카테고리의 다른 글
[AI 데이터 분석] 머신러닝 시작하기 - 00. 인공지능/머신러닝 개론 (0) | 2022.12.15 |
---|---|
[AI 데이터 분석] 데이터 분석을 위한 라이브러리 - 04. Matplotlib 데이터 시각화 (2) | 2022.12.15 |
[AI 데이터 분석] 데이터 분석을 위한 라이브러리 - 02. 데이터 핸들링을 위한 라이브러리 NumPy (0) | 2022.12.15 |
[AI 데이터 분석] 데이터 분석을 위한 라이브러리 - 01. 파이썬의 여러가지 모듈과 패키지 (0) | 2022.12.14 |
[AI 데이터 분석] 핵심 파이썬 기초 프로그래밍 - 05. 같은 듯 다른 함수와 메서드 (2) | 2022.12.14 |