본문 바로가기

머신러닝, 딥러닝

(13)
[머신러닝] 3. 분류- 로지스틱 회귀, LDA, QDA (feat. R Code) 로지스틱 회귀(Logistic Regression)로지스틱 함수를 사용하여 두 개의 반응변수 클래스에 대해 Pr(Y=k|X=x)를 직접 모델링(설명변수X에 대해 반응변수Y의 조건부분포를 모델링)최대가능도(maximum likelihood) 방법을 사용하여 모델 적합모델을 적합하여 얻은 계수 추정치 beta1이 0.0055라면, X의 한 유닛 증가로 인해 로그 공산은 0.0055 유닛만큼 증가선형판별분석(Linear Discriminant Analysis)데이터 분포를 학습해 결정경계(Decision Boundary)를 만들어 데이터를 분류하는 모델로지스틱 회귀보다 대안적인 기법을 사용하여 반응변수Y의 각 클래스에서 설명변수X의 분포를 모델링하고, 그 다음에 베이즈 정리를 사용하여 Pr(Y=k|X=x)에 ..
[머신러닝] 2. 선형회귀분석- 고려해야 할 요소, 잠재적 문제(feat. R Code) 회귀분석의 이론, 구축 방법 보다는 모델 구축에서 주의해야 할 요소, 가정을 위주로 정리했습니다 👩🏻‍💻 선형회귀에서 중요한 몇 가지 질문 1. 반응변수와 설명변수 사이에 상관관계가 있는가? p개의 설명변수가 있는 다중회귀에서는 모든 회귀계수들이 0인지, F-통계량을 계산하여 가설검정을 한다. n이 큰 경우에는 F-통계량이 1보다 약간만 크면 귀무가설(모든 회귀계수들이 0)에 반하는 증거가 된다. 반대로 n이 작은 경우 귀무가설을 기각하려면 더 큰 F-통계량이 필요하다. 2. 중요 변수의 결정 모델의 quality를 평가하는 통계 맬로우즈(Mallows) Cp AIC(Akaike information criterion) BIC(베이즈 정보기준, Bayesian information criterion) 수..
[머신러닝] 1. 통계학습 1. 예측과 추론 예측 f를 추정하여 반드시 Y에 대해 예측하는 것이 목적 Y에 대한 예측의 정확성은 축소가능 오차와 축소불가능 오차로 나눌 수 있는데, 위 수식의 전자가 축소가능 오차이고 후자가 축소불가능한 오차 전자는 적절한 통계 기법을 사용하여 축소할 수 있지만, 후자의 error는 X를 사용하여 예측할 수 없기 때문에 축소할 수 없음 추론 종속변수(Y)와 독립변수(X) 사이의 관계를 이해하길 원하거나, 독립변수의 함수로서 종속변수가 어떻게 변하는지 이해하는 것이 목적 2. f의 추정 모수적 방법 모델 기반의 기법을 모수적 방법이라고 하며, 파라미터를 추정하는 문제로 되기 때문에 f에 대한 모수적 형태를 가정하는 것은 f를 추정하는 문제를 단순화함 다만, 선택된 모델이 f의 실제 모양과 너무 다르면..
[머신러닝] 0. 책 소개 및 리뷰 시작 취업준비를 하면서 잊어버렸던(그나마 있던) 데이터 분석 감 찾기 프로젝트⚡👊🏻 코딩테스트를 볼 때마다 벼락치기로 공부했던 코드들이 기억 어딘가에 여기저기 흩어져 있는게 계속 신경쓰였고, 면접 볼 때도 이미 알고 있는 개념들을 쉽게 답변하지 못하는 모습을 보고 언젠가 한 번쯤 정리해야겠다 생각만 하고 있었다! (진짜 머리로는 아는 데 입밖으로 안나오는 상황 ㅠㅠㅠㅠ 복기할 때마다 괴롭다) 예전에 유용하게 봤던 책 + 추천받은 책을 위주로 이론과 R코드(여유가 된다면 Python까지)를 정리해보고자 한다. 사용할 책 1. An Introduction to Statistical Learning with Applications in R 나의 유일한 구독자 젼님이 추천해주신 책이다. 찾아보니 통계분석의 정석으로 ..
[한줄 개념] 클러스터링의 종류 1. K-means- n개의 중심점을 찍은 후에, 이 중심점의 위치를 움직여가면서 각 군집의 데이터와 중심점의 거리가 가장 작은 중심점을 찾는 것이다.- 이 중심점은 결국 각 군집의 데이터 평균값을 위치로 가지게 되는데, 이런 이유로 means(평균)값 알고리즘이라고 한다. 1) 장점- 사용이 편하고 속도가 비교적 빠른 알고리즘 2) 단점- 클러스터의 수를 정해줘야 함- 중심점을 측정할 때 처음에 랜덤으로 중심점의 위치를 찾기 때문에 잘못하면 중심점과 점간의 거리가 Global Optimum인 최소값을 찾는 게 아니라 중심점이 Local optimum에 수렴하여 잘못된 분류를 할 수 있다는 취약점을 가지고 있음 2. Hierarchical Clustering- 비슷한 군집끼리 묶어 가면서 최종적으로는 하..