2022 AI SW 온라인 교육/AI 데이터 분석 트랙

[AI 데이터 분석] 딥러닝 시작하기 - 03. 다양한 신경망

parkes811 2022. 12. 17. 16:34
01 이미지 처리를 위한 데이터 전 처리

 

  • 우리 주변의 이미지 처리 기술 예시

 

  • 이미지 전 처리하기

- MNIST 데이터 : 사람의 손 글씨를 이미지로 표현한 것을 의미

 

02 이지미 처리를 위한 딥러닝 모델

 

  • 합성곱 신경망 ( Convolution Neural Network )

- 기존 다층 퍼셉트론 기반 신경망의 이미지 처리 방식은 많은 수의 파라미터가 필요하거나, 이미지에 변화가 생기면 분류 성능이 떨어진다는 단점을 보완하기 위해 합성곱 신경망이 나오게 되었다.

 

  • 합성곱 신경망의 구조

 

- Convolution Layer : 이미지에서 어떤 특징이 있는지 구하는 과정의 레이어

- 특징을 구하는 과정은 필터가 이미지를 이동하며 새로운 이미지를 생성하는 과정이다.

 

  • 피쳐맵의 크기 변형 : Padding, Striding 

 

  • Pooling Layer

 

  • Fully Connected Layer

 

  • 분류를 위한 Softmax 활성화 함수 

- 마지막 레이어에 있는 유닛의 개수는 예측해야 할 범주의 개수와 같아야 한다.

 

  • CNN 정리

 

03 자연어 처리를 위한 데이터 전 처리

 

  • 자연어란?

- 자연 언어는 사람들이 일상적으로 쓰는 언어를 인공적으로 만들어진 인공어와 구분하여 부르는 개념이다.

- 영어, 중국어, 한국어 등 국가나 민족별로 쓰이는 언어를 비롯하여 다양한 자연어가 존재한다.

- 대표적인 예로 우리 주변의 자연어 처리 예시는 기계 번역, 음성 인식 등이 있다.

 

  • 자연어 처리 과정

 

  1. 자연어 전 처리 방법 : 원 상태 그대로의 자연어는 전처리 과정이 필요하다.

- Noise Canceling, 오류 교정 : 자연어 문장의 스펠링 체크 및 띄어쓰기 오류 교정 과정

 

- Tokenizing : 문장을 토큰으로 나누고( 수치 변환 ), 토큰은 어절, 단어 등으로 목적에 따라 다르게 정의한다..

 

- StopWord removal, 불용어 제거 : 불필요한 단어를 의미하는 불용어 제거  

 

- Bag of Words : 자연어 데이터에 속해있는 단어들의 가방을 의미한다.

 

  • 토큰 시퀀스 : Bag of Words에서 단어에 해당되는 익덴스로 변환하는 것을 의미한다.

- 모든 문장의 길이를 맞추기 위해 기준보다 짧은 문장에는 패딩을 수행한다.

 

04 자연어 처리를 위한 딥러닝 모델

 

  • 워드 임베딩( Word Embedding )의 정의

- 워드 임베딩은 단순하게 Bag of Words의 인덱스로 정의된 토큰들에게 의미를 부여하는 방식이다.

 

  • 기존 다층 퍼셉트론 신경망의 자연어 분류 방식

- 자연어 문장을 기존 MLP( 다층 퍼셉트론 ) 모델에 적용시키기에는 한계가 있다.

- 그래서 토큰 간의 순서와 관계를 적용할 수 있는 모델이 등장하게 되었다.

 

  • 자연어 분류를 위한 순환 신경망 (Recurrent Neural Network, RNN)

 

  • 순환 신경망의 입출력 구조

 

  • 순환 신경망 기반 자연어 분류 예시

 

- 정리하자면, 임베딩은 토큰의 특징을 찾아내고, RNN이 전 토큰의 영향을 받으면서 학습하게 된다.

 

  • 순환 신경망 기반 다양한 자연어 처리 기술