¿Cómo funciona el Cluster ISO?
La herramienta Cluster ISO utiliza un procedimiento de clustering de optimización iterativo modificado, también conocido como la técnica de migración de valor medio. El algoritmo separa todas las celdas del número de grupos unimodales distintos especificado por el usuario en el espacio multidimesional de las bandas de entrada. Esta herramienta se utiliza generalmente como preparación para la clasificación no supervisada.
El prefijo ISO del algoritmo de clustering de isodatos es una abreviatura para la manera iterativa auto-organizable de realizar un clustering. Este tipo de clustering utiliza un proceso en el que, durante cada iteración, todas las muestras se asignan a centros de cluster existentes y se vuelven a calcular nuevos valores medios para cada clase. Generalmente, se desconoce la cantidad óptima de clases a especificar. Por lo tanto, se recomienda introducir un número alto cauteloso, analizar los clusters resultantes y volver a ejecutar la función con una cantidad de clases reducida.
El algoritmo del Cluster ISO es un proceso iterativo para calcular la distancia euclidiana mínima cuando se asigna cada celda candidata a un cluster. El proceso comienza con la asignación de valores medios arbitrarios por parte del software, una para cada cluster (usted decide la cantidad de clusters). Cada celda se asigna lo más cercana posible a estos valores medios (todas en el espacio de atributos multidimensional). Los nuevos valores medios se vuelven a calcular para cada cluster en base a las distancias de los atributos de las celdas que pertenecen al cluster después de la primera iteración. El proceso se repite: cada celda se asigna al valor medio más cercano en el espacio de atributos multidimensional, y los nuevos valores medios se vuelven a calcular para cada cluster en base a la pertenencia de las celdas de la iteración. Puede especificar la cantidad de iteraciones del proceso mediante el Numero de iteraciones. Este valor debe ser lo suficientemente grande como para garantizar que, después de ejecutar el número de iteraciones especificado, la migración de celdas de un cluster a otro sea mínima; entonces, todos los clusters se volverán estables. Si se aumenta la cantidad de clusters, también se debe aumentar la cantidad de iteraciones.
El valor de Cantidad de clases especificado es la cantidad mínima de clusters que pueden ser el resultado del proceso de clustering. Sin embargo, es posible que la cantidad de clusters en el archivo de firma de salida no sea la misma que la cantidad especificada por la cantidad de clases. Esta situación ocurre en los siguientes casos:
- Los valores de los datos y los valores medios de cluster iniciales no están distribuidos uniformemente. En ciertos rangos de valores de celda, la frecuencia de ocurrencia de estos clusters puede estar ausente. Por consiguiente, es posible que algunos de los valores medios de cluster predefinidos originalmente no tengan la oportunidad de absorber suficientes miembros de celda.
- Los clusters que tengan menos celdas que el valor de Tamaño de clase mínimo especificado se eliminarán al finalizar las iteraciones.
- Los clusters se fusionan con los clusters próximos cuando los valores estadísticos son similares después de que los clusters se vuelven estables. Algunos clusters pueden estar tan cerca entre sí y tener estadísticas tan similares que separarlos ocasionaría la división innecesaria de los datos.
Ejemplo
El siguiente es un archivo de firma de muestra creado por un Cluster ISO. El archivo comienza con un encabezado, que incluye comentarios, que muestra los valores de los parámetros utilizados al realizar el clustering ISO.
Los nombres de las clases son opcionales y se introducen después de crear el archivo mediante un editor de texto. Cada nombre de clase, si se introduce, debe ser una cadena de caracteres simple con no más de 14 caracteres alfanuméricos de longitud.
# Signatures Produced by Clustering of # Stack redlands # number_of_classes=6 max_iterations=20 min_class_size=20 # sampling interval=10 # Number of selected grids /* 3 # Layer-Number Grid-name /* 1 redlands1 /* 2 redlands2 /* 3 redlands3 # Type Number of Classes Number of Layers Number of Parametric Layers 1 4 3 3 # =============================================================== # Class ID Number of Cells Class Name 1 1843 # Layers 1 2 3 # Means 22.8817 60.7656 34.8893 # Covariance 1 169.3975 -69.7444 179.0808 2 -69.7444 714.7072 10.7889 3 179.0808 10.7889 284.0931 # --------------------------------------------------------------- # Class ID Number of Cells Class Name 2 2495 # Layers 1 2 3 # Means 38.4894 132.9775 61.8104 # Covariance 1 414.9621 -19.0732 301.0267 2 -19.0732 510.8439 102.8931 3 301.0267 102.8931 376.5450 # --------------------------------------------------------------- # Class ID Number of Cells Class Name 3 2124 # Layers 1 2 3 # Means 70.3983 82.9576 89.2472 # Covariance 1 264.2680 100.6966 39.3895 2 100.6966 523.9096 75.5573 3 39.3895 75.5573 279.7387 # ------------------------------------------------------------ # Class ID Number of Cells Class Name 4 2438 # Layers 1 2 3 # Means 105.8708 137.6645 130.0886 # Covariance 1 651.0465 175.1060 391.6028 2 175.1060 300.8853 143.2443 3 391.6028 143.2443 647.7345
Referencias
Ball, G. H. y D. J. Hall. 1965. A Novel Method of Data Analysis and Pattern Classification. Menlo Park, California: Stanford Research Institute.
Richards, J. A. 1986. Remote Sensing Digital Image Analysis: An Introduction. Berlín: Springer-Verlag.