본문 바로가기

5. 면접 준비/통계, 머신러닝 용어

(3)
[한줄 개념] 클러스터링의 종류 1. K-means - n개의 중심점을 찍은 후에, 이 중심점의 위치를 움직여가면서 각 군집의 데이터와 중심점의 거리가 가장 작은 중심점을 찾는 것이다. - 이 중심점은 결국 각 군집의 데이터 평균값을 위치로 가지게 되는데, 이런 이유로 means(평균)값 알고리즘이라고 한다. 1) 장점 - 사용이 편하고 속도가 비교적 빠른 알고리즘 2) 단점 - 클러스터의 수를 정해줘야 함 - 중심점을 측정할 때 처음에 랜덤으로 중심점의 위치를 찾기 때문에 잘못하면 중심점과 점간의 거리가 Global Optimum인 최소값을 찾는 게 아니라 중심점이 Local optimum에 수렴하여 잘못된 분류를 할 수 있다는 취약점을 가지고 있음 2. Hierarchical Clustering - 비슷한 군집끼리 묶어 가면서 최종..
[한줄 개념] 머신러닝과 딥러닝의 차이점은 무엇인가요? Q. 머신러닝과 딥러닝의 차이점은 무엇인가요? 머신러닝과 딥러닝의 가장 큰 차이점은 딥러닝은 분류에 사용할 데이터를 스스로 학습할 수 있는 반면 머신 러닝은 학습 데이터를 수동으로 제공해야 한다는 점입니다. * 해석력 머신러닝과 딥러닝을 비교할 수 있는 다른 요인으로는 '해석력'이 있습니다. 데이터 양이 많을 때, 딥러닝 알고리즘을 활용하면 성능은 거의 사람이 한 것과 유사할 정도로 뛰어납니다. 하지만 어떻게 이런 결과값이 부여되었는지는 알 수 없습니다. 따라서 결과를 해석하지 못한다는 단점이 있습니다. 하지만 의사결정나무와 같은 머신러닝 알고리즘은 왜 선택됐는지 명확한 rule이 제공되기 때문에 해석하기가 쉽습니다. 따라서 해석이 필요한 산업에서는 의사결정나무나 선형회귀모형, 로지스틱 회귀모형이 활용됩..
[한줄 개념] 릿지, 라쏘, 엘라스틱 넷 회귀모형에 대해 설명해보세요. Q. 릿지, 라쏘, 엘라스틱 넷 회귀모형에 대해 설명해보세요. 세 모델은 일단 모델이 과적합되는 것을 막기 위해 선형회귀 계수에 대한 제약조건을 추가한다는 공통점이 있습니다. 람다를 통해서 제약조건의 비중을 조절하는데, 릿지회귀에서는 가중치가 0에 가까워질 뿐 실제로 0이 되지 않습니다. 하지만 라쏘회귀에서 중요하지 않은 가중치는 0이 될 수도 있다는 데 차이가 있습니다. 그리고 엘라스틱 넷 모델은 릿지, 라쏘 모델이 결합된 하이브리드 형태라고 볼 수 있습니다.