01 이미지 처리를 위한 데이터 전 처리
- 우리 주변의 이미지 처리 기술 예시
- 이미지 전 처리하기
- MNIST 데이터 : 사람의 손 글씨를 이미지로 표현한 것을 의미
02 이지미 처리를 위한 딥러닝 모델
- 합성곱 신경망 ( Convolution Neural Network )
- 기존 다층 퍼셉트론 기반 신경망의 이미지 처리 방식은 많은 수의 파라미터가 필요하거나, 이미지에 변화가 생기면 분류 성능이 떨어진다는 단점을 보완하기 위해 합성곱 신경망이 나오게 되었다.
- 합성곱 신경망의 구조
- Convolution Layer : 이미지에서 어떤 특징이 있는지 구하는 과정의 레이어
- 특징을 구하는 과정은 필터가 이미지를 이동하며 새로운 이미지를 생성하는 과정이다.
- 피쳐맵의 크기 변형 : Padding, Striding
- Pooling Layer
- Fully Connected Layer
- 분류를 위한 Softmax 활성화 함수
- 마지막 레이어에 있는 유닛의 개수는 예측해야 할 범주의 개수와 같아야 한다.
- CNN 정리
03 자연어 처리를 위한 데이터 전 처리
- 자연어란?
- 자연 언어는 사람들이 일상적으로 쓰는 언어를 인공적으로 만들어진 인공어와 구분하여 부르는 개념이다.
- 영어, 중국어, 한국어 등 국가나 민족별로 쓰이는 언어를 비롯하여 다양한 자연어가 존재한다.
- 대표적인 예로 우리 주변의 자연어 처리 예시는 기계 번역, 음성 인식 등이 있다.
- 자연어 처리 과정
- 자연어 전 처리 방법 : 원 상태 그대로의 자연어는 전처리 과정이 필요하다.
- Noise Canceling, 오류 교정 : 자연어 문장의 스펠링 체크 및 띄어쓰기 오류 교정 과정
- Tokenizing : 문장을 토큰으로 나누고( 수치 변환 ), 토큰은 어절, 단어 등으로 목적에 따라 다르게 정의한다..
- StopWord removal, 불용어 제거 : 불필요한 단어를 의미하는 불용어 제거
- Bag of Words : 자연어 데이터에 속해있는 단어들의 가방을 의미한다.
- 토큰 시퀀스 : Bag of Words에서 단어에 해당되는 익덴스로 변환하는 것을 의미한다.
- 모든 문장의 길이를 맞추기 위해 기준보다 짧은 문장에는 패딩을 수행한다.
04 자연어 처리를 위한 딥러닝 모델
- 워드 임베딩( Word Embedding )의 정의
- 워드 임베딩은 단순하게 Bag of Words의 인덱스로 정의된 토큰들에게 의미를 부여하는 방식이다.
- 기존 다층 퍼셉트론 신경망의 자연어 분류 방식
- 자연어 문장을 기존 MLP( 다층 퍼셉트론 ) 모델에 적용시키기에는 한계가 있다.
- 그래서 토큰 간의 순서와 관계를 적용할 수 있는 모델이 등장하게 되었다.
- 자연어 분류를 위한 순환 신경망 (Recurrent Neural Network, RNN)
- 순환 신경망의 입출력 구조
- 순환 신경망 기반 자연어 분류 예시
- 정리하자면, 임베딩은 토큰의 특징을 찾아내고, RNN이 전 토큰의 영향을 받으면서 학습하게 된다.
- 순환 신경망 기반 다양한 자연어 처리 기술
'2022 AI SW 온라인 교육 > AI 데이터 분석 트랙' 카테고리의 다른 글
[AI 데이터 분석] 딥러닝 시작하기 - 02. 텐서플로우와 신경망 (0) | 2022.12.15 |
---|---|
[AI 데이터 분석] 딥러닝 시작하기 - 01. 퍼셉트론 (0) | 2022.12.15 |
[AI 데이터 분석] 머신러닝 시작하기 - 04. 지도학습 - 분류 (0) | 2022.12.15 |
[AI 데이터 분석] 머신러닝 시작하기 - 03. 지도학습 - 회귀 (0) | 2022.12.15 |
[AI 데이터 분석] 머신러닝 시작하기 - 02. 데이터 전 처리하기 (0) | 2022.12.15 |