[AI 데이터 분석] 머신러닝 시작하기 - 03. 지도학습 - 회귀
01 회귀 개념 알아보기
- 예시로 생각해보는 회귀 개념
- 평균 기온을 활용하여 미래 판매량을 예측한다면 실제 판매량만큼만 주문이 가능해 손실이 적어진다.
- 문제 정의와 해결 방안
- 회귀 분석이란?
- 데이터를 가장 잘 설명하는 모델을 찾아 입력값에 따른 미래 결과값을 예측하는 알고리즘
- 완벽한 예측은 불가능하기에 각 데이터의 실제 값과 모델이 예측하는 값의 차이를 최소한으로 하는 선을 찾아야한다.
02 단순 선형 회귀
- 단순 선형 회귀란? 데이터를 설명하는 모델을 직선 형태로 가정한 것이다.
- 단순 선형 회귀 목표는 데이터를 가장 잘 설명하는 β0와 β1을 찾는 것이다.
- 실제 정답과 내가 예측한 값과의 차이가 작을수록 좋다.
- 실제 값과 예측 값 차이의 제곱의 합을 Loss 함수로 정의한다.
- Loss 함수가 작을 수록 좋은 모델이다.
- Loss 함수의 크기를 줄이는 여러가지 방법
- 경사 하강법
- β0와 β1 값을 랜덤하게 초기화 한다.
- Loss 값을 계산한다.
- Gradient (미분) 값을 계산한다.
- β0와 β1 값을 업데이트 하고, 위 순서를 반복하다 보면 최적의 값을 찾을 수 있다.
- 단순 선형 회귀의 과정과 특징
- 가장 기초적인 방법이지만 여전히 많이 사용되는 알고리즘이다.
- 입력값이 1개인 경우에만 적용이 가능하다.
- 입력값과 결과값의 관계를 알아보는 데 용이하다.
- 입력값이 결과값에 얼마나 영향을 미치지는지 알 수 있다.
03 다중 선형 회귀
- 입력값이 추가된 다중 선형 회귀
- 입력값 x가 2개 이상인 경우 활용할 수 있는 회귀 알고리즘이다.
- 각 개별 Xi에 해당하는 최적의 βi를 찾아야 한다.
- 다중 선형 회귀 모델의 Loss 함수
- 평균 기온과 평균 강수량으로 아이스크림 판매량 예측 예시
- 다중 선형 회귀의 특징
04 회귀 평가 지표
- 회귀 알고리즘 평가
- RSS - 단순 오차
- 가장 간단한 평가 방법으로 직관적인 해석이 가능하다.
- 오차를 그대로 이용하기 때문에 입력 값의 크기에 의존적이다.
- 절대적인 값과 비교가 불가능하다.
- MSE, MAE - 절대적인 크기에 의존한 지표
- MSE : 이상치 (Outlier) 즉, 데이터들 중 크게 떨어진 값에 민감하다
- MAE : 변동성이 큰 지표와 낮은 지표를 같이 예측할 시 유용하다.
- 가장 간단한 평가 방법들로 직관적인 해석이 가능하다.
- 평균을 그대로 이용하기 때문에 입력 값의 크기에 의존적이고 절대적인 값과 비교가 불가능하다.
05 R2
- R ^ 2 ( 결정 계수)
- 회귀 모델의 설명력을 표현하는 지표
- 1에 가까울수록 높은 성능의 모델이라고 해석할 수 있다.
- 특징은 오차가 없을수록 1에 가까운 값을 갖을 수록 좋은 모델이 된다.
- 값이 0인 경우, 데이터의 평균 값을 출력하는 직선 모델을 의미한다.
- 음수 값이 나온 경우, 평균 값 예측 보다 성능이 좋지 않다.