본문 바로가기

1. 머신러닝

[머신러닝] 1. 통계학습

728x90

 

1. 예측과 추론

예측

  • f를 추정하여 반드시 Y에 대해 예측하는 것이 목적
  • Y에 대한 예측의 정확성은 축소가능 오차와 축소불가능 오차로 나눌 수 있는데, 위 수식의 전자가 축소가능 오차이고 후자가 축소불가능한 오차
  • 전자는 적절한 통계 기법을 사용하여 축소할 수 있지만, 후자의 error는 X를 사용하여 예측할 수 없기 때문에 축소할 수 없음

추론

  • 종속변수(Y)와 독립변수(X) 사이의 관계를 이해하길 원하거나, 독립변수의 함수로서 종속변수가 어떻게 변하는지 이해하는 것이 목적

2. f의 추정

모수적 방법

  • 모델 기반의 기법을 모수적 방법이라고 하며, 파라미터를 추정하는 문제로 되기 때문에 f에 대한 모수적 형태를 가정하는 것은 f를 추정하는 문제를 단순화함
  • 다만, 선택된 모델이 f의 실제 모양과 너무 다르면 추정이 정확하지 않을 것

비모수적 방법

  • f의 함수 형태에 대한 가정을 하지 않아도 더 넓은 범위의 f형태에 정확하게 적합될 가능성이 있음
  • f에 대한 정확한 추정을 얻기 위해서는 아주 많은 수의 관측치가 필요

3. 예측 정확도와 모델 해석력 사이의 Trade-Off

출처: Intro To Statistical Learning,2nd Edition,Page 25,Fig.2.7.

  • lasso는 선형회귀보다 유연성이 떨어지지만, 해석력은 더 좋음
    최종 모델에서 반응변수는 계수 추정값이 영이 아닌 것에만 관련될 것이기 때문
  • GAMs(일반화가법모델)은 선형회귀보다 더 유연하지만 다소 해석력이 떨어지는데, 각 설명변수와 반응변수 사이의 관계가 곡선을 사용하여 모델링되기 때문

4. 모델의 정확도 평가

MSE(평균제곱오차)

  • 주어진 관측치에 대해 예측된 반응 값이 관측치에 대한 실제 반응 값에 얼마나 가까운지 수량화하는데 사용되는 측도 중 하나
  • 훈련MSE는 작지만 검정MSE는 큰 결과를 제공할 때 데이터를 과적합(overfitting)이라고 함

분산

  • 다른 훈련자료를 사용하여 추정하는 경우, f에 대한 추정이 변동되는 정도
  • 통계학습방법의 유연성이 높을수록 분산도 더 높음

편향

  • 실제 문제를 훨씬 단순한 모델로 근사시킴으로 인해 발생되는 오차
  • 일반적으로 유연성이 높은 방법일수록 편향이 적음
728x90