클러스터링 문제는 교차 지역에서 발생했습니다. 쌍으로 플롯은 클러스터링하는 동안 처음 두 대의 PC가 좋은 작업을 수행하는 지 확인하는 데 유용할 수도 있습니다. 첫 번째는 좋은 작업 자체를 수행 (우리는 행 / 열 PC1을 보고 참조), 두 번째 PC는 다소 더 나쁘다. 색상이 혼합되기 때문에 다른 것들은 매우 나쁩습니다. 처음 두 대의 PC(교차로)는 클러스터링 할 때 훌륭한 작업을 수행하고 있습니다. K-평균 클러스터는 대용량 데이터 세트를 신속하게 클러스터화하는 방법입니다. 연구원은 사전에 클러스터 수를 정의합니다. 이 기능은 가정된 클러스터 수가 다른 다른 모델을 테스트하는 데 유용합니다. 이번에는 다른 차원이 비교할 수 없는 상황에서 더 유용할 수 있는 k-means 알고리즘에서 맨해튼 거리를 사용합니다. 다음은 원시 데이터에 대한 결과입니다 – 우리는 최소한의 총 WCSS로 클러스터링을 선택했습니다.

클러스터 분석은 종종 다른 분석(예: 판별 분석)과 함께 사용됩니다. 연구원은 데이터에 대한 이해를 바탕으로 클러스터 분석을 해석하여 분석에 의해 생성된 결과가 실제로 의미가 있는지 확인할 수 있어야 합니다. 스케일이 조정되지 않은 데이터와 비교할 때 정확도가 향상되었습니다. 교육 세트의 정확도는 110/118 = 93.2%, 테스트 세트의 경우 58/60 = 96.7%입니다. 그러나 우리는 100 %에 너무 가깝다는 것이 항상 좋은 것은 아니며, 과적합에 문제가있을 수 있으므로 주의해야합니다. 첫째, 우리는 원시, 비스케일, 광택없는 데이터를 처리 하려고합니다. 이것이 최선의 방법은 아니지만 결과에 관심이 있습니다. 우리는 100 개의 다른 씨앗을 사용하여 100 가지 가능한 클러스터링 방법을 갖춘 목록 (L1이라는 이름)을 만듭니다. 이것은 재현성을 처리합니다. 이 100개의 결과 중에서 총 WCSS를 최소화한 하나를 선택하고, 그 중에서도 원래 클래스 이름 “1”, “2”, “3”이 클러스터링 클래스 이름 “1”, “2”, “3”과 일치하기 때문에 L1[[3]]을 선택했습니다.

이 필요는 없지만 결과를 해석하는 것이 더 쉽습니다. 클러스터 분석은 데이터 내의 구조를 식별하려고 시도하는 예비 분석입니다.