본문 바로가기

1. 머신러닝

(4)
[R] 사용되지 않는 level 제거하기 (feat. drop.levels함수) #1번) 원데이터의 credit변수 head(data$credit) ##[1] 1 1 2 0 2 1 ##Levels: 0 1 2 #2번) filter를 적용한 데이터의 credit변수 data2%filter(data$credit%in%c(0, 1)) head(data2$credit) ##[1] 1 1 0 1 0 0 ##Levels: 0 1 2 0, 1, 2의 값을 가질 수 있는 범주형 변수가 있다고 할 때, filter를 적용해 0, 1의 값만 가지는 관측치만 새로 생성했다. 하지만 levels은 0, 1, 2를 그대로 가지는 것을 확인할 수 있다. 이러한 경우 예전에 어떻게 처리했는지 기억이 나지 않아 검색을 해보니, gdata 패키지의 drop.levels 함수를 사용하면 된다고 한다. 이렇게 ! d..
[머신러닝] 2. 선형회귀분석- 고려해야 할 요소, 잠재적 문제(feat. R Code) 회귀분석의 이론, 구축 방법 보다는 모델 구축에서 주의해야 할 요소, 가정을 위주로 정리했습니다 👩🏻‍💻 선형회귀에서 중요한 몇 가지 질문 1. 반응변수와 설명변수 사이에 상관관계가 있는가? p개의 설명변수가 있는 다중회귀에서는 모든 회귀계수들이 0인지, F-통계량을 계산하여 가설검정을 한다. n이 큰 경우에는 F-통계량이 1보다 약간만 크면 귀무가설(모든 회귀계수들이 0)에 반하는 증거가 된다. 반대로 n이 작은 경우 귀무가설을 기각하려면 더 큰 F-통계량이 필요하다. 2. 중요 변수의 결정 모델의 quality를 평가하는 통계 맬로우즈(Mallows) Cp AIC(Akaike information criterion) BIC(베이즈 정보기준, Bayesian information criterion) 수..
[머신러닝] 1. 통계학습 1. 예측과 추론 예측 f를 추정하여 반드시 Y에 대해 예측하는 것이 목적 Y에 대한 예측의 정확성은 축소가능 오차와 축소불가능 오차로 나눌 수 있는데, 위 수식의 전자가 축소가능 오차이고 후자가 축소불가능한 오차 전자는 적절한 통계 기법을 사용하여 축소할 수 있지만, 후자의 error는 X를 사용하여 예측할 수 없기 때문에 축소할 수 없음 추론 종속변수(Y)와 독립변수(X) 사이의 관계를 이해하길 원하거나, 독립변수의 함수로서 종속변수가 어떻게 변하는지 이해하는 것이 목적 2. f의 추정 모수적 방법 모델 기반의 기법을 모수적 방법이라고 하며, 파라미터를 추정하는 문제로 되기 때문에 f에 대한 모수적 형태를 가정하는 것은 f를 추정하는 문제를 단순화함 다만, 선택된 모델이 f의 실제 모양과 너무 다르면..
[머신러닝] 0. 책 소개 및 리뷰 시작 취업준비를 하면서 잊어버렸던(그나마 있던) 데이터 분석 감 찾기 프로젝트⚡👊🏻 코딩테스트를 볼 때마다 벼락치기로 공부했던 코드들이 기억 어딘가에 여기저기 흩어져 있는게 계속 신경쓰였고, 면접 볼 때도 이미 알고 있는 개념들을 쉽게 답변하지 못하는 모습을 보고 언젠가 한 번쯤 정리해야겠다 생각만 하고 있었다! (진짜 머리로는 아는 데 입밖으로 안나오는 상황 ㅠㅠㅠㅠ 복기할 때마다 괴롭다) 예전에 유용하게 봤던 책 + 추천받은 책을 위주로 이론과 R코드(여유가 된다면 Python까지)를 정리해보고자 한다. 사용할 책 1. An Introduction to Statistical Learning with Applications in R 나의 유일한 구독자 젼님이 추천해주신 책이다. 찾아보니 통계분석의 정석으로 ..