본문 바로가기

5. 면접 준비/통계, 머신러닝 용어

[한줄 개념] 클러스터링의 종류

728x90

 

1. K-means

- n개의 중심점을 찍은 후에, 이 중심점의 위치를 움직여가면서 각 군집의 데이터와 중심점의 거리가 가장 작은 중심점을 찾는 것이다.

- 이 중심점은 결국 각 군집의 데이터 평균값을 위치로 가지게 되는데, 이런 이유로 means(평균)값 알고리즘이라고 한다.

 

1) 장점

- 사용이 편하고 속도가 비교적 빠른 알고리즘

 

2) 단점

- 클러스터의 수를 정해줘야 함

- 중심점을 측정할 때 처음에 랜덤으로 중심점의 위치를 찾기 때문에 잘못하면 중심점과 점간의 거리가 Global Optimum인 최소값을 찾는 게 아니라 중심점이 Local optimum에 수렴하여 잘못된 분류를 할 수 있다는 취약점을 가지고 있음

 

2. Hierarchical Clustering

- 비슷한 군집끼리 묶어 가면서 최종적으로는 하나의 케이스가 될 때까지 군집을 묶는 클러스터링 알고리즘

- 군집간의 거리를 기반으로 클러스터링을 하는 알고리즘이며, K-means와는 다르게 군집의 수를 미리 정해주지 않아도 됨

 

3. DBSCAN(밀도 기반 클러스터링)

- K-means나 Hierarchical 클러스터링의 경우 군집간의 거리를 이용하여 클러스터링을 하는 방법인데, 밀도 기반의 클러스터링은 점이 세밀하게 몰려 있어서 밀도가 높은 부분을 클러스터링 하는 방식이다.

- 점 p가 있다고 할 때, 점 p에서 부터 거리 e(epsilon)내에 점이 m(minPts)개 있으면 하나의 군집으로 인식한다고 하자. 이 조건 즉 거리 e내에 점 m개를 가지고 있는 점 p를 core point(중심점)이라고 한다.

- DBSCAN 알고리즘을 사용하려면 기준점부터의 거리 epsilon값과, 이 반경내에 있는 점수 minPts를 인자로 전달해야 한다.

 

1) 장점

- K-means와 같이 클러스터의 수를 정하지 않아도 됨

- 클러스터의 밀도에 따라서 클러스터를 서로 연결하기 때문에 기하학적인 모양을 갖는 군집도 잘 찾을 수 있음

- Noise point를 통하여, outlier 검출이 가능

 

 

728x90