Ir al contenido

Silhouette (clustering)

De Wikipedia, la enciclopedia libre

Silhouette se refiere a un método de interpretación y validación de la coherencia dentro del análisis de grupos. La técnica proporciona una representación gráfica sucinta de lo bien que se ha clasificado cada objeto.[1]

El valor de la silueta es una medida de cuán similar es un objeto a su propio cúmulo (cohesión) en comparación con otros cúmulos (separación). La silueta va de -1 a +1, donde un valor alto indica que el objeto está bien emparejado con su propio cúmulo y mal emparejado con los cúmulos vecinos. Si la mayoría de los objetos tienen un valor alto, entonces la configuración del cúmulo es apropiada. Si muchos puntos tienen un valor bajo o negativo, entonces la configuración de cúmulos puede tener demasiados o muy pocos cúmulos.

La silueta puede ser calculada con cualquier métrica distancia, como la distancia euclidiana o la distancia Manhattan.

Definición

[editar]
Una trama que muestra las siluetas de tres tipos de animales de la base de datos del Zoo, tal y como se muestra en Orange suite de minería de datos. En la parte inferior de la trama, la silueta identifica al delfín y a la marsopa como valores atípicos en el grupo de mamíferos.

Supongamos que los datos han sido agrupados mediante cualquier técnica, como k-means, en clusters.

Para un punto de datos (punto de datos en el cluster ), tenemos

siendo la distancia media entre y todos los demás puntos de datos en el mismo cúmulo, donde es la distancia entre los puntos de datos y en el cúmulo (dividimos por porque no incluimos la distancia en la suma). Podemos interpretar como una medida de lo bien que está asignada a su cúmulo (cuanto más pequeño es el valor, mejor es la asignación).

Luego definimos la diferencia media del punto a algún cúmulo como la media de la distancia desde a todos los puntos en (donde ).

Para cada punto de datos , definimos ahora

para ser el más pequeño (de ahí el operador en la fórmula) distancia media de a todos los puntos de cualquier otro cúmulo, del cual no es miembro. Se dice que el cúmulo con esta diferencia media más pequeña es el "cúmulo vecino" de porque es el siguiente cúmulo que mejor se ajusta al punto .

Ahora definimos una silhouette (valor) de un punto de datos

, if

y

, if

El cual puede ser escrito como:

De la anterior definición está claro que

Además, note que la puntuación es 0 para los grupos con tamaño = 1. Esta restricción se añade para evitar que el número de cúmulos aumente significativamente.

Para que esté cerca de 1 requerimos que . Como es una medida de cuán disímil es a su propio grupo, un pequeño valor significa que está bien emparejado. Además, un valor grande de implica que está mal emparejado con su cúmulo vecino. Por lo tanto, un cercano a uno significa que los datos están apropiadamente agrupados. Si está cerca de uno negativo, entonces por la misma lógica vemos que sería más apropiado si se agrupara en su cúmulo vecino. Un cercano a cero significa que el dato está en el borde de dos cúmulos naturales.

La media de sobre todos los puntos de un cúmulo es una medida de cuán estrechamente agrupados están todos los puntos del cúmulo. Por lo tanto, la media sobre todos los datos de todo el conjunto de datos es una medida de cuán apropiadamente los datos han sido agrupados. Si hay demasiados o muy pocos cúmulos, como puede ocurrir cuando se utiliza una mala elección de en el algoritmo de agrupación (por ejemplo: k-means), algunos de los cúmulos mostrarán típicamente siluetas mucho más estrechas que el resto. Así pues, las gráficas de siluetas y las medias pueden utilizarse para determinar el número natural de cúmulos dentro de un conjunto de datos. También se puede aumentar la probabilidad de que la silueta se maximice en el número correcto de cúmulos al reescalar los datos utilizando ponderaciones de características que sean específicas del cúmulo.[2]

Kaufman et al. introdujeron el término silhouette coefficient para el valor máximo del promedio para todos los datos de un dataset. [3]

Donde representa la media sobre todos los datos de todo el conjunto de datos para un número específico de cúmulos .

Véase también

[editar]

Referencias

[editar]
  1. Peter J. Rousseeuw (1987). «Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis». Computational and Applied Mathematics 20: 53-65. doi:10.1016/0377-0427(87)90125-7. 
  2. R.C. de Amorim, C. Hennig (2015). «Recovering the number of clusters in data sets with noise features using feature rescaling factors». Information Sciences 324: 126-145. arXiv:1602.06989. doi:10.1016/j.ins.2015.06.039. 
  3. Leonard Kaufman; Peter J. Rousseeuw (1990). Finding groups in data : An introduction to cluster analysis. Hoboken, NJ: Wiley-Interscience. p. 87. ISBN 9780471878766. doi:10.1002/9780470316801.