본문 바로가기
IT

군집 분석(Cluster Analysis)에 대한 간단한 이해

by 콩코미 2021. 6. 1.

 

군집 분석(Cluster Analysis)이란? 

 

군집 분석(Cluster Analysis)이란 데이터 처리를 위한 통계적 방법으로서, 항목이 얼마나 밀접하게 연관되어 있는지에 따라 항목을 그룹으로 구성하여 작동합니다. 
군집 분석(Cluster Analysis)은 대표적인 비지도 학습 알고리즘으로 모델을 실행하기 이전에 데이터에 얼마나 많은 클러스터가 있는지 알 수 없습니다. 다른 통계방법들과는 달리 군집 분석은 일반적으로 데이터 내에서 가능한 관계에 대한 가정이 없을 때 사용됩니다. 서로 유사하지만 다른 관찰 그룹과는 다른 관찰을 군집화하는 데 사용되는 통계 데이터 기술입니다.
일상에서 간단한 예를 살펴보면 상자에서 초콜릿이 있다고 했을 때 초콜릿을 그룹화할 수 있는 방법은 많습니다. 밀크 초콜릿과 다크 초콜릿으로, 견과류가 있는 것과 없는 것 등 특성에 따라 비슷한 초콜릿으로 분류하는 과정이 클러스터링입니다.

클러스터링은 클러스터 내 클러스터 간 거리를 사용하여 측정합니다. 클러스터링 알고리즘은 거리 측정 또는 메트릭을 사용하여 서로 다른 그룹의 관측치를 분리하는 방법을 결정합니다. 가장 일반적인 것은 유클리드 거리 (Euclidean distance)라고 불리며, 클러스터의 한 중심이 클러스터의 다른 중심에서 얼마나 멀리 떨어져 있는지를 보여 주는 많은 옵션이 있습니다. 거리 측정은 종종 관측치가 군집의 평균 또는 평균값에 얼마나 가까운지를 보여주고 군집의 모양을 식별합니다.
군집 내 거리는 군집 내부의 데이터 점 사이의 거리입니다. 강력한 군집 효과가 있는 경우 이 값은 작아야 합니다. (더 균일)
군집 간 거리는 서로 다른 군집에 있는 데이터 포인트 간의 거리입니다. 강력한 클러스터링이 존재하는 경우 이 크기는 더 커야 합니다.

 

군집분석을-설명하는-사진

 



군집 분석(Cluster Analysis)의 용도


일반적인 용도는 분류입니다. 생물학에서의 분류나 임상 의학에서 질병이 있는 환자, 동일한 치료를 받아야 하는 환자, 치료에 대해 동일한 수준의 반응을 가지는 환자 등을 식별하는 데 사용할 수 있습니다. 또한 의료계 연구자들은 군집 분석을 사용하여 서로 다른 지리적 영역이 특정 질병과 연결되어 있는지 알아내어 건강 문제에 기여하는 지리적 요인을 조사할 수 있습니다. 마케팅에서의 군집 분석은 잠재된 고객에 대한 세분화에 사용될 수 있으므로 서로 다른 고객 그룹이 가장 관련성 높은 메시지로 타겟팅 될 수 있습니다.  시장 조사 상황 같은 카테고리를 식별하는 데에도 사용할 수 있습니다. 많은 양의 정보를 소수의 의미 있는 범주로 분류해야 할 때마다 클러스터 분석이 유용할 수 있습니다.
응용프로그램이 무엇이든 데이터 정리는 성공적인 클러스터 분석을 위한 필수적인 준비 단계입니다. 클러스터링은 모든 포인트가 다른 포인트와 비교하여 평가되는 데이터 세트 수준에서 작동하므로 데이터는 가능한 완전해야 합니다.


 

 

군집 분석(Cluster Analysis)의 주요 유형



분류에는 두 가지 주요 유형이 있습니다.

 

  1. k-평균 클러스터링
  2. 계층적 클러스터링

 

k 평균 클러스터링은 클래스 수가 미리 고정되어 있을 때 사용되는 것으로 중심점을 찾아 클러스터의 존재를 설정합니다. 중심점은 군집에 있는 모든 데이터 정의 평균입니다. 데이터 세트의 각 점 사이의 유클리드 거리를 반복적으로 평가하여 각 점을 클러스터에 할당할 수 있습니다. 중심점은 무작위로 시작하여 프로세스가 수행될 때마다 변경됩니다. K-평균은 군집 분석에서 일반적으로 사용되지만 주로 스칼라 데이터에 이용된다는 한계가 있습니다.
 계층적 클러스터링은 위에서 아래로 우세한 순서를 갖는 클러스터를 만드는 비지도 클러스터링 알고리즘으로, 알 수 없는 클래스의 수에 사용되며 최적의 수를 결정하는 데 도움이 됩니다. 예를 들면 하드디스크의 모든 파일과 폴더는 계층 구조로 형성됩니다. 알고리즘은 유사한 개체를 클러스터라는 그룹으로 그룹화합니다. 엔드 포인트는 클러스터 또는 그룹의 집합으로, 각 클러스터는 서로 구별되며 각 클러스터 내의 객체는 서로 유사합니다. 계층적 클러스터링은 군집수를 미리 정의할 필요가 없어 k-평균보다 이점이 많으나 엄청난 양의 데이터가 있으면 제대로 작동하지 않는다는 단점이 있습니다.


 

댓글