1. K-means
- n개의 중심점을 찍은 후에, 이 중심점의 위치를 움직여가면서 각 군집의 데이터와 중심점의 거리가 가장 작은 중심점을 찾는 것이다.
- 이 중심점은 결국 각 군집의 데이터 평균값을 위치로 가지게 되는데, 이런 이유로 means(평균)값 알고리즘이라고 한다.
1) 장점
- 사용이 편하고 속도가 비교적 빠른 알고리즘
2) 단점
- 클러스터의 수를 정해줘야 함
- 중심점을 측정할 때 처음에 랜덤으로 중심점의 위치를 찾기 때문에 잘못하면 중심점과 점간의 거리가 Global Optimum인 최소값을 찾는 게 아니라 중심점이 Local optimum에 수렴하여 잘못된 분류를 할 수 있다는 취약점을 가지고 있음
2. Hierarchical Clustering
- 비슷한 군집끼리 묶어 가면서 최종적으로는 하나의 케이스가 될 때까지 군집을 묶는 클러스터링 알고리즘
- 군집간의 거리를 기반으로 클러스터링을 하는 알고리즘이며, K-means와는 다르게 군집의 수를 미리 정해주지 않아도 됨
3. DBSCAN(밀도 기반 클러스터링)
- K-means나 Hierarchical 클러스터링의 경우 군집간의 거리를 이용하여 클러스터링을 하는 방법인데, 밀도 기반의 클러스터링은 점이 세밀하게 몰려 있어서 밀도가 높은 부분을 클러스터링 하는 방식이다.
- 점 p가 있다고 할 때, 점 p에서 부터 거리 e(epsilon)내에 점이 m(minPts)개 있으면 하나의 군집으로 인식한다고 하자. 이 조건 즉 거리 e내에 점 m개를 가지고 있는 점 p를 core point(중심점)이라고 한다.
- DBSCAN 알고리즘을 사용하려면 기준점부터의 거리 epsilon값과, 이 반경내에 있는 점수 minPts를 인자로 전달해야 한다.
1) 장점
- K-means와 같이 클러스터의 수를 정하지 않아도 됨
- 클러스터의 밀도에 따라서 클러스터를 서로 연결하기 때문에 기하학적인 모양을 갖는 군집도 잘 찾을 수 있음
- Noise point를 통하여, outlier 검출이 가능
'5. 면접 준비 > 통계, 머신러닝 용어' 카테고리의 다른 글
[한줄 개념] 머신러닝과 딥러닝의 차이점은 무엇인가요? (0) | 2021.01.13 |
---|---|
[한줄 개념] 릿지, 라쏘, 엘라스틱 넷 회귀모형에 대해 설명해보세요. (0) | 2021.01.13 |