logo

기계 학습의 클러스터링

클러스터링 또는 클러스터 분석은 레이블이 없는 데이터 세트를 그룹화하는 기계 학습 기술입니다. 이는 다음과 같이 정의될 수 있습니다. '유사한 데이터 포인트로 구성된 서로 다른 클러스터로 데이터 포인트를 그룹화하는 방법입니다. 유사성이 있을 수 있는 개체는 다른 그룹과 유사성이 적거나 전혀 없는 그룹에 남아 있습니다.'

모양, 크기, 색상, 동작 등과 같이 레이블이 지정되지 않은 데이터 세트에서 유사한 패턴을 찾아 유사한 패턴의 유무에 따라 분류합니다.

이것은 비지도 학습 방법이므로 알고리즘에 대한 감독이 제공되지 않으며 레이블이 지정되지 않은 데이터 세트를 처리합니다.

이 클러스터링 기술을 적용한 후 각 클러스터 또는 그룹에는 클러스터 ID가 제공됩니다. ML 시스템은 이 ID를 사용하여 크고 복잡한 데이터 세트의 처리를 단순화할 수 있습니다.

클러스터링 기법은 일반적으로 다음과 같은 목적으로 사용됩니다. 통계 데이터 분석.

참고: 클러스터링은 다음과 유사합니다. 분류 알고리즘 , 그러나 차이점은 우리가 사용하는 데이터 세트의 유형입니다. 분류에서는 레이블이 지정된 데이터 세트로 작업하는 반면, 클러스터링에서는 레이블이 없는 데이터 세트로 작업합니다.

: Mall의 실제 사례를 통해 클러스터링 기법을 이해해 봅시다. 어느 쇼핑몰을 방문하면 비슷한 용도의 것들이 모여 있는 것을 관찰할 수 있습니다. 예를 들어 티셔츠는 한 섹션에, 바지는 다른 섹션에 그룹화되어 있고, 마찬가지로 야채 섹션에는 사과, 바나나, 망고 등이 별도의 섹션에 그룹화되어 있어 물건을 쉽게 찾을 수 있습니다. 클러스터링 기술도 동일한 방식으로 작동합니다. 클러스터링의 다른 예는 주제에 따라 문서를 그룹화하는 것입니다.

클러스터링 기술은 다양한 작업에 널리 사용될 수 있습니다. 이 기술의 가장 일반적인 용도는 다음과 같습니다.

mysql 업데이트 조인
  • 시장 세분화
  • 통계 데이터 분석
  • 소셜 네트워크 분석
  • 이미지 분할
  • 이상 징후 탐지 등

이러한 일반적인 용도 외에도 다음과 같은 용도로 사용됩니다. 아마존 추천 시스템에서는 과거 검색된 상품에 따라 추천을 제공합니다. 넷플릭스 또한 이 기술을 사용하여 시청 기록에 따라 사용자에게 영화와 웹 시리즈를 추천합니다.

아래 다이어그램은 클러스터링 알고리즘의 작동을 설명합니다. 우리는 서로 다른 과일이 비슷한 특성을 가진 여러 그룹으로 나뉘어져 있음을 볼 수 있습니다.

기계 학습의 클러스터링

클러스터링 방법의 유형

클러스터링 방법은 크게 다음과 같이 나뉜다. 하드 클러스터링 (데이터 포인트는 하나의 그룹에만 속함) 및 소프트 클러스터링 (데이터 포인트는 다른 그룹에도 속할 수 있습니다). 그러나 클러스터링에는 다른 다양한 접근 방식도 존재합니다. 다음은 기계 학습에 사용되는 주요 클러스터링 방법입니다.

    파티셔닝 클러스터링 밀도 기반 클러스터링 분포 모델 기반 클러스터링 계층적 클러스터링 퍼지 클러스터링

파티셔닝 클러스터링

데이터를 비계층적 그룹으로 나누는 클러스터링 유형입니다. 그것은 또한 다음과 같이 알려져 있습니다. 중심 기반 방법 . 분할 클러스터링의 가장 일반적인 예는 다음과 같습니다. K-평균 클러스터링 알고리즘 .

이 유형에서 데이터세트는 k개의 그룹 세트로 나누어지며, 여기서 K는 사전 정의된 그룹의 수를 정의하는 데 사용됩니다. 클러스터 중심은 한 클러스터의 데이터 포인트 사이의 거리가 다른 클러스터 중심과 비교하여 최소가 되는 방식으로 생성됩니다.

맥 운영 체제
기계 학습의 클러스터링

밀도 기반 클러스터링

밀도 기반 클러스터링 방법은 밀도가 높은 영역을 클러스터로 연결하고, 밀도가 높은 영역을 연결할 수 있는 한 임의의 모양의 분포를 형성합니다. 이 알고리즘은 데이터세트에서 서로 다른 클러스터를 식별하여 이를 수행하고 밀도가 높은 영역을 클러스터로 연결합니다. 데이터 공간의 밀집된 영역은 더 희박한 영역으로 서로 구분됩니다.

이러한 알고리즘은 데이터 세트의 밀도가 다양하고 차원이 높은 경우 데이터 포인트를 클러스터링하는 데 어려움을 겪을 수 있습니다.

기계 학습의 클러스터링

분포 모델 기반 클러스터링

분포 모델 기반 클러스터링 방법에서는 데이터 세트가 특정 분포에 속하는 확률을 기반으로 데이터를 나눕니다. 그룹화는 일부 분포를 공통적으로 가정하여 수행됩니다. 가우스 분포 .

이 유형의 예는 다음과 같습니다. 기대치 최대화 클러스터링 알고리즘 GMM(Gaussian Mixture Models)을 사용합니다.

기계 학습의 클러스터링

계층적 클러스터링

계층적 클러스터링은 생성할 클러스터 수를 미리 지정할 필요가 없으므로 분할 클러스터링의 대안으로 사용할 수 있습니다. 이 기술에서는 데이터세트를 클러스터로 나누어 트리형 구조를 생성합니다. 덴드로그램 . 올바른 수준에서 트리를 절단하여 관측치 또는 원하는 수의 클러스터를 선택할 수 있습니다. 이 방법의 가장 일반적인 예는 집합적 계층적 알고리즘 .

기계 학습의 클러스터링

퍼지 클러스터링

퍼지 클러스터링은 데이터 객체가 둘 이상의 그룹이나 클러스터에 속할 수 있는 일종의 소프트 방법입니다. 각 데이터 세트에는 클러스터에 속할 멤버십 정도에 따라 달라지는 멤버십 계수 세트가 있습니다. 퍼지 C-평균 알고리즘 이러한 유형의 클러스터링의 예입니다. 퍼지 k-평균 알고리즘이라고도 합니다.

js 여러 줄 문자열

클러스터링 알고리즘

클러스터링 알고리즘은 위에서 설명한 모델을 기준으로 구분할 수 있습니다. 다양한 유형의 클러스터링 알고리즘이 게시되어 있지만 일반적으로 사용되는 알고리즘은 몇 가지뿐입니다. 클러스터링 알고리즘은 우리가 사용하는 데이터의 종류를 기반으로 합니다. 예를 들어, 일부 알고리즘은 주어진 데이터 세트의 클러스터 수를 추측해야 하는 반면, 일부 알고리즘은 데이터 세트 관찰 사이의 최소 거리를 찾아야 합니다.

여기서는 기계 학습에 널리 사용되는 주로 널리 사용되는 클러스터링 알고리즘에 대해 논의합니다.

    K-평균 알고리즘:k-평균 알고리즘은 가장 널리 사용되는 클러스터링 알고리즘 중 하나입니다. 샘플을 등분산의 여러 클러스터로 나누어 데이터 세트를 분류합니다. 이 알고리즘에서는 클러스터 수를 지정해야 합니다. 선형 복잡도로 인해 필요한 계산이 적어 속도가 빠릅니다. 에). 평균 이동 알고리즘:평균 이동 알고리즘은 데이터 포인트의 매끄러운 밀도에서 밀도가 높은 영역을 찾으려고 시도합니다. 이는 중심이 특정 지역 내 점의 중심이 되도록 후보를 업데이트하는 중심 기반 모델의 예입니다.DBSCAN 알고리즘:그것은 서있다 잡음이 있는 애플리케이션의 밀도 기반 공간 클러스터링 . 이는 평균 이동과 유사하지만 몇 가지 놀라운 장점이 있는 밀도 기반 모델의 예입니다. 이 알고리즘에서는 밀도가 높은 영역이 밀도가 낮은 영역으로 구분됩니다. 이로 인해 클러스터는 임의의 모양으로 발견될 수 있습니다.GMM을 사용한 기대 최대화 클러스터링:이 알고리즘은 k-평균 알고리즘이나 K-평균이 실패할 수 있는 경우에 대한 대안으로 사용될 수 있습니다. GMM에서는 데이터 포인트가 가우스 분포라고 가정합니다.집합적 계층적 알고리즘:Agglomerative 계층적 알고리즘은 상향식 계층적 클러스터링을 수행합니다. 여기서 각 데이터 포인트는 처음에는 단일 클러스터로 처리된 다음 연속적으로 병합됩니다. 클러스터 계층 구조는 트리 구조로 표현될 수 있습니다.선호도 전파:클러스터 수를 지정할 필요가 없다는 점에서 다른 클러스터링 알고리즘과 다릅니다. 여기서 각 데이터 포인트는 수렴될 때까지 데이터 포인트 쌍 간에 메시지를 보냅니다. 그것은 O(N2T) 시간 복잡도는 이 알고리즘의 주요 단점입니다.

클러스터링의 응용

다음은 기계 학습에서 일반적으로 알려진 클러스터링 기술 적용 사례입니다.

    암세포 식별:클러스터링 알고리즘은 암세포를 식별하는 데 널리 사용됩니다. 암성 데이터 세트와 비암성 데이터 세트를 서로 다른 그룹으로 나눕니다.검색 엔진에서:검색 엔진도 클러스터링 기술을 사용합니다. 검색어에 가장 가까운 개체를 기준으로 검색 결과가 나타납니다. 유사한 데이터 개체를 다른 다른 개체와 멀리 떨어진 하나의 그룹으로 그룹화하여 이를 수행합니다. 쿼리의 정확한 결과는 사용된 클러스터링 알고리즘의 품질에 따라 달라집니다.고객 세분화:이는 고객의 선택과 선호도에 따라 고객을 분류하기 위해 시장 조사에 사용됩니다.생물학:이는 생물학 분야에서 이미지 인식 기술을 사용하여 다양한 종의 식물과 동물을 분류하는 데 사용됩니다.토지 이용 시:클러스터링 기법은 GIS 데이터베이스에서 유사한 토지 이용 지역을 식별하는 데 사용됩니다. 이는 특정 토지가 어떤 목적으로 사용되어야 하는지, 즉 어떤 목적에 더 적합한지를 찾는 데 매우 유용할 수 있습니다.