Análisis de Clusters

Agrupando Equipos (Cluster Jerárquico)

Análisis de cluster jerárquico

El análisis de cluster en general es una técnica multivariada de segmentación no supervisada que consiste en agrupar un conjunto de observaciones en un número de clusters o grupos basado en la idea de distancia o similitud entre las mismas.

La idea es que los grupos conformados por la técnica sean  heterogéneos entre si y homogéneos dentro de si mismos.

Dado que computacionalmente no se pueden examinar todas las posibilidades de agrupar los elementos, una solución se encuentra en los métodos jerárquicos.

También se pueden utilizar otros métodos no jerárquicos como k-medias con menor costo computacional pero con la desventaja de tener que fijar el número de clusters inicialmente.

Hay 2 tipos de métodos jerárquicos:

  • Los aglomerativos o ascendentes que comienzan con tantos grupos como observaciones haya y a partir de esos grupos iniciales se van formando nuevos grupos, de forma ascendente, finalizando el algoritmo con todos los casos tratados en un mismo conglomerado
  • Los  disociativos o descendentes cuyo procedimiento es inverso se parte de un único conglomerado inicial con todas las observaciones el cual se va particionando formando grupos más pequeños obteniendo al finalizar tantas agrupaciones como elementos.

Algoritmo de agrupamiento ascendente

Sea n el conjunto de observaciones de la muestra, donde L = 0 (nivel inicial), con n grupos.

En el siguiente nivel se deberán agrupar dos individuos que tengan la mayor similitud (o menor distancia), resultando así n − 1 grupos; en el siguiente paso usando el mismo criterio se agrupará en el próximo nivel aquellos dos individuos (o clusters ya formados) con menor distancia o mayor similitud.

De esta forma, en el nivel L tendremos n − L grupos formados. Si se continúa agrupando de esta forma, se llega al nivel L = n − 1 en el que sólo hay un grupo, formado por todos los elementos de la muestra.

Métrica

La métrica influenciará la forma de los grupos por lo cual es necesario elegir la misma conforme al problema.

Según la métrica adoptada algunas observaciones pueden estar cerca de acuerdo a una distancia y más lejos de acuerdo a otra.

Por ejemplo, en un espacio bidimensional, la distancia entre el punto (1,0) y el origen (0,0) es siempre 1, pero la distancia entre el punto (1,1) y el origen (0,0) puede ser 2 tomando la distancia de Manhattan o raíz de 2 si tomamos la distancia euclídea.

Las distancias más comunes son:  euclidea, euclidea cuadrado, Manhattan y máxima entre otras

Métodos de enlace (linkage methods)

Una vez definida la métrica, hay varios criterios de aglomeración para unir los cluster y/o observaciones entre sí para ir formando los nuevos clusters.

Algunos de ellos son los siguientes: distancia mínima (vecino más próximo), máxima (vecino más lejano), media, mediana, centroide o Ward

Dendrograma

Del proceso de agrupación ya sea por el método ascendente o descendente se puede realizar un gráfico denominado dendrograma que nos permite observar cómo se van formando los clusters a partir de las subdivisiones o los agrupamientos en cada etapa.

Probá la siguiente aplicación agrupando con diferentes métricas y métodos de agrupamiento


Fuente de datos: Tabla estadística de la Copa Mundial de Fútbol