Skip to main content

K-Means 클러스터링을 사용한 데이터 마이닝

1203.빅데이터와 데이터마이닝_군집분석1(자율) (유월 2025)

1203.빅데이터와 데이터마이닝_군집분석1(자율) (유월 2025)
Anonim

그만큼 케이- 의미 클러스터링 알고리즘은 데이터 마이닝 및 기계 학습 도구로서 관측을 관계의 사전 지식없이 관련 관측 그룹으로 클러스터하는 데 사용됩니다. 샘플링을 통해 알고리즘은 데이터가 속한 범주 또는 클러스터를 값에 의해 정의되는 클러스터의 수와 함께 표시하려고 시도합니다 케이.

그만큼 케이- 알고리즘이 가장 단순한 클러스터링 기술 중 하나이며 의학 영상, 생체 인식 및 관련 분야에서 일반적으로 사용된다는 것을 의미합니다. 의 장점 케이- 클러스터링이란 시작시 데이터에 대해 알고리즘을 지시하지 않고 (감독 된 형태의 알고리즘을 사용하여) 데이터를 알려주는 것입니다 (감독되지 않은 형식 사용).

1957 년 스튜어트 로이드 (Stuart Lloyd)가 처음 제안한 표준 알고리즘이기 때문에 컴퓨터 과학계에서 특히 로이드 알고리즘 (Lloyd 's Algorithm)이라고도합니다. "k-means"라는 용어는 James McQueen이 1967 년에 만들어 냈습니다.

K-Means 알고리즘의 기능

그만큼 케이- 알고리즘이란 조작 방법으로부터 그 이름을 얻는 진화 알고리즘임을 의미합니다. 알고리즘은 다음과 같은 관찰을 클러스터링합니다. 케이 그룹 케이 입력 매개 변수로 제공됩니다. 그런 다음 관측치가 클러스터의 평균에 근접하여 클러스터에 각 관측치를 할당합니다. 그런 다음 클러스터의 평균이 다시 계산되고 프로세스가 다시 시작됩니다. 다음은 알고리즘 작동 방식입니다.

  1. 알고리즘은 임의로 선택합니다. 케이 초기 클러스터 센터 (의미)를 가리 킵니다.
  2. 데이터 집합의 각 점은 각 점과 각 클러스터 중심 간의 유 클리 디언 거리에 따라 닫힌 클러스터에 할당됩니다.
  3. 각 클러스터 센터는 해당 클러스터의 포인트 평균으로 다시 계산됩니다.
  4. 2 단계와 3 단계는 클러스터가 수렴 될 때까지 반복됩니다. 수렴은 구현에 따라 다르게 정의 될 수 있지만 일반적으로 2 단계와 3 단계를 반복 할 때 관측치가 변경되지 않거나 변경 사항이 클러스터의 정의에 중요한 차이를 만들지 않는다는 것을 의미합니다.

클러스터 수 선택

주요 단점 중 하나 케이- 클러스터링이란 알고리즘의 입력으로 클러스터 수를 지정해야한다는 사실을 의미합니다. 설계된대로 알고리즘은 적절한 클러스터 수를 결정할 수 없으며 사전에이를 식별하기 위해 사용자에게 의존합니다.

예를 들어 남성 또는 여성으로 이진 성별 정체성을 기준으로 클러스터링 할 그룹이있는 경우 케이- 입력을 사용하는 알고리즘을 의미합니다. k = 3 단지 2 명일 때 사람들을 3 개의 클러스터로 강제 할 것이다. k = 2, 보다 자연스러운 착용감을 제공합니다.

마찬가지로 가정의 상태에 따라 개인 그룹이 쉽게 클러스터링되고 케이- 입력이있는 알고리즘을 의미합니다. k = 20, 결과가 너무 일반화되어 효과적 일 수 있습니다.

이러한 이유로 여러 값으로 실험 해 보는 것이 좋습니다. 케이 데이터에 가장 적합한 값을 식별 할 수 있습니다. 또한 기계 학습 지식에 대한 탐구에서 다른 데이터 마이닝 알고리즘의 사용을 탐색 할 수도 있습니다.