Data Science - Breve guía para interpretar modelos cluster

Características de un modelo cluster

En general sigue los siguientes patrones:

  • Alta similitud entre los casos dentro de cada cluster.
  • Cada cluster debería ser tan único como se pueda, en comparación a los restantes.

Presentaremos un ejemplo en donde cada caso, representa un país, y construiremos un modelo (k-means) con 3 clusters.

cluster example lesson data science

Ilustración de un modelo cluster, hecho con 2 variables y 3 clusters. Los círculos indican el centro del cluster.

 

Gráfico de coordenadas

Este es el gráfico que describe las principales características del modelo:

 

Características del gráfico de coordenadas

  • Cada linea de color representa un cluster, mas una línea extra “All” que representa el promedio de todo el set de datos.
  • Cada cluster posee un promedio por cada variable. *Dicho promedio va desde 0 a 1 para así poder visualizar todas las variables en un gráfico.
  • Para cada variable, siempre habrá un número que se corresponde con 0 y otro con 1. Representando el mín y máx respectivamente.
  • El gráfico debería ser leído verticalmente.

 

¿Cómo se construye “scaled average”?

Mirando la variable “LandArea” (la cual representa kilómetros cuadrados), podemos decir que C_2 (cluster 2) tiene el menor promedio en lo que respecta a la superficie. Seguido por C_1. Por otro lado, C_3 tiene el valor mas alto y bastante alejado del resto de los clusters.

En otras palabras, los países mas grandes están en C_3, mientras que los más pequeños en C_2.

A continuación, se mostrarán los valores originales de la variables -no representados en el gráfico debido a la transformación- y el valor de la escala correspondiente (“scaled average”).

  • 1886206 es convertido en: 0.17
  • 243509 es convertido en: 0.00
  • 10014500 es convertido en: 1.00

El promedio de todos los datos, (sin considerar la segmentación hecha por clustering), es 884633, por lo que es convertido a: 0.06. Éste es el valor representado por la linea “All”.

Aquí ya tenemos nuestros 4 puntos, para representar la variable LandArea.

 

Extrayendo conclusiones

Describiendo el Cluster 3

En C_3 están los países con el valor más alto de LandArea y Population (los cuales no siempre están correlacionados). Respecto de las variables Energy y LifeExpectancy, también posee los valores más altos, lo cual podría ser un indicativo de un país bien desarrollado.

Sin embargo, posee el menor promedio de tasa de nacimiento (BirthRate), y no es nuevo que algunos paises desarrollados tiene una valor bajo en ésta variable.

Describiendo el Cluster 2

C_2 es muy parecido a “All”, es decir a toda la población, por lo que no aporta mucha información. Mirando todas sus variables comparte valores muy similares a la población en general.

Describiendo el Cluster 1

C_1 puede ser visto como el punto medio respecto a: LandArea, Population, Energy y Rural. Pero es interesante notar que poseen la tasa de crecimiento (BirthRate) más alta y la menor esperanza de vida (LifeExpectancy), así como también un valor elevado en la variable Rural (porcentaje de la población viviendo en una zona rural). Éste sería el caso opuesto a C_3.

En resumen se puede decir que:

  • C_3 => Países con alto desarrollo
  • C_1 => Países con bajo desarrollo

 

Contacto

Hecho por Pablo C. de Data Science Heroes Imagen eliminada.

  • Este material es una breve adaptación del curso e-learning Data Science with R en el cual se pueden encontrar guías paso a paso para construir, entender y validar modelos. Demo gratuita disponible .

  • Código de R utilizado: Instalación del gráfico de coordenadas y su uso disponible en GitHub

  • ¿Preguntas acerca data science? Escribirlas en nuestro grupo de Linkedin