Análisis cluster espacial de distancia múltiple (Función K de Ripley) (Estadística espacial)
Resumen
Determina si las entidades, o los valores asociados a las entidades, exhiben un clustering o una dispersión estadísticamente significativos en un rango de distancias.
Más información sobre cómo funciona Análisis cluster espacial de distancia múltiple
Ilustración
Uso
-
La salida de la herramienta es una tabla con campos: ExpectedK y ObservedK que contienen los valores K esperados y observados, respectivamente. Debido que se aplica la transformación L(d), los valores ExpectedK siempre coincidirán con el valor de Distancia. Un campo denominado DiffK que contiene los valores K observados menos los valores K esperados. Si se especifica una opción de intervalo de confianza, también se incluirán dos campos adicionales denominados LwConfEnv y HiConfEnv en la Tabla de salida. Estos campos contienen información del intervalo de confianza para cada iteración de la herramienta, según se especifica en el parámetro Cantidad de bandas de distancia. De forma opcional, la función K creará una capa de gráficos que resume los resultados.
-
Cuando el valor K observado es mayor que el valor K esperado para una distancia particular, la distribución es más agrupada que una distribución aleatoria en esa distancia (escala de análisis). Cuando el valor K observado es menor que el valor K esperado, la distribución es más dispersa que una distribución aleatoria en esa distancia. Cuando el valor K observado es mayor que el valor HiConfEnv, el clustering espacial para esa distancia es estadísticamente significativo. Cuando el valor K observado es menor que el valor LwConfEnv, la dispersión espacial para esa distancia es estadísticamente significativa. En Cómo funciona el Análisis cluster espacial de distancia múltiple (Función K de Ripley) se puede encontrar más información acerca de la interpretación.
Habilite el parámetro Mostrar resultados de forma gráfica para crear un gráfico de línea que resuma los resultados de la herramienta. Los resultados esperados se representarán con una línea azul mientras que los resultados observados se representarán con una línea roja. La desviación de la línea observada sobre la línea esperada indica que el dataset exhibe un clustering a esa distancia. La desviación de la línea observada debajo de la línea esperada indica que el dataset exhibe una dispersión a esa distancia. El gráfico de línea se crea como una capa de gráfico; las capas de gráficos son temporales y se eliminan al cerrar ArcMap. Si hace clic con el botón derecho del ratón en la capa de gráfico y selecciona Guardar, el gráfico se puede escribir en un Archivo de gráficos. Si guarda el documento de mapa después de guardar el gráfico, se guardará un vínculo al archivo de gráficos junto con el .mxd. Para obtener más información sobre los archivos de gráficos, consulte Explorar y visualizar datos con gráficos.
-
Los centroides de entidad se utilizan en los cálculos de distancia para las entidades de línea y polígono. Para multipuntos, polilíneas o polígonos con varias partes, el centroide se calcula utilizando el centro medio ponderado de todas las partes de entidad. La ponderación para las entidades de punto es 1, para las entidades de línea es longitud y para las entidades de polígono es área.
-
El Campo de peso se utiliza de forma más apropiada cuando representa el número de incidentes o conteos.
-
Cuando no se especifica un Campo de peso, el valor DiffK más grande le indica la distancia donde los procesos espaciales que promueven el clustering son más marcados.
-
A continuación se explica cómo se calcula el sobre de confianza:
- Ni un Campo de peso
Cuando no se especifica un Campo de peso, se crea el sobre de confianza al distribuir puntos aleatoriamente en el área de estudio y calcular L (d) para esa distribución. Cada distribución aleatoria de los puntos se llama "permutación". Por ejemplo, si se seleccionan 99 permutaciones, la herramienta distribuirá aleatoriamente el conjunto de puntos 99 veces para cada iteración. Después de distribuir los puntos 99 veces la herramienta selecciona, para cada distancia, el valor k Observado que se desvió hacia arriba o hacia abajo del valor k esperado con la cantidad más grande; estos valores se convierten en el intervalo de confianza.
- Incluir un Campo de peso
Cuando se especifica un Campo de peso, sólo los valores de peso se redistribuyen aleatoriamente para calcular los sobres de confianza; las ubicaciones de punto permanecen fijas. En esencia, cuando se especifica un Campo de peso, las ubicaciones permanecen fijas y la herramienta evalúa el clustering de los valores de la entidad en el espacio. Por otro lado, cuando no se especifica un Campo de peso la herramienta analiza el clustering y la dispersión de las ubicaciones de entidades.
- Ni un Campo de peso
Cuando el sobre de confianza se construye a partir de permutaciones aleatorias, los valores que definen el sobre de confianza cambiarán de una ejecución a otra, aún cuando los parámetros sean idénticos. No obstante, si selecciona un valor seed para el entorno de geoprocesamiento de Generador de números aleatorios, los análisis de repetición producirán resultados consistentes.
-
La cantidad de permutaciones seleccionada para el parámetro Calcular sobre de confianza se puede traducir flexiblemente a niveles de confianza: 9 para 90%, 99 para 99% y 999 para 99,9%.
-
Cuando no se especifica un área de estudio, la herramienta utiliza un rectángulo de encuadre mínimo como el polígono del área de estudio. A diferencia de la extensión, un rectángulo de encuadre mínimo no se alineará necesariamente con los ejes x e y.
-
La estadística de la función k es muy sensible al tamaño del área de estudio. Las distribuciones idénticas de puntos pueden exhibir clustering o dispersión según el tamaño del área de estudio que los incluye. Por lo tanto, se deben considerar cuidadosamente los límites del área de estudio. La imagen a continuación es un ejemplo clásico de cómo las distribuciones de entidades idénticas se pueden dispersar o agrupar según el área de estudio especificada.
-
Si se elige USER_PROVIDED_STUDY_AREA_FEATURE_CLASS para el parámetro Método de área de estudio, se requiere una clase de entidad de área de estudio.
-
Si se especifica una Clase de entidad de área de estudio, debe tener exactamente una entidad de parte simple (el polígono del área de estudio).
-
Si no se especifica una Distancia de inicio o un Incremento de distancia, se calculan valores predeterminados basados en la extensión de la Clase de entidad de entrada.
-
La función K tiene una influencia de recuento bajo para las entidades ubicadas cerca del límite del área de estudio. El parámetro Método de corrección de límite proporciona métodos para abordar esta influencia.
- NONE
No se aplica una corrección de límite específica. Sin embargo, los puntos de la Clase de entidad de entrada que caen fuera del área de estudio especificada por el usuario se utilizan en conteos de vecinos. Este método es apropiado si ha adquirido datos de una área de estudio muy amplia, pero sólo necesita analizar áreas más pequeñas que están completamente dentro de los límites de la adquisición de datos.
- SIMULATE_OUTER_BOUNDARY_VALUES
Este método crea puntos fuera del límite del área de estudio que reflejan aquellos que están dentro del límite para corregir las infravaloraciones cercanas a los bordes. Se reflejan los puntos que están dentro de una distancia que equivale a la banda de distancia máxima de un borde del área de estudio. Los puntos reflejados se utilizan para que los puntos de los bordes tengan cálculos de vecinos más exactos. El siguiente diagrama muestra qué puntos se utilizarán en el cálculo y cuáles se utilizarán sólo para la corrección de bordes.
- REDUCE_ANALYSIS_AREA
Esta técnica de corrección de bordes encoge el tamaño del área de análisis a una distancia equivalente a la banda de distancia más grande que se utilizará en el análisis. Después de la reducción del área de estudio, los puntos que están fuera del nuevo área de estudio sólo se considerarán cuando se evalúen las cantidades de vecinos para conocer el número de puntos que aún están dentro del área de estudio. No se utilizarán de ninguna otra forma durante el cálculo de la función k. El siguiente diagrama muestra qué puntos se utilizarán en el cálculo y cuáles se utilizarán sólo para la corrección de bordes.
- RIPLEY'S_EDGE_CORRECTION_FORMULA
Este método verifica la distancia de cada punto desde el borde del área de estudio y la distancia a cada uno de sus vecinos. A todos los vecinos que están más alejados del punto en cuestión que el borde del área de estudio se les otorga un peso extra. Este método de corrección de bordes sólo es apropiado para áreas de estudio de forma cuadrada o rectangular, o cuando selecciona MINIMUM_ENCLOSING_RECTANGLE para el parámetro Método de área de estudio.
- NONE
Cuando no se aplica una corrección de límite, la influencia de recuento aumenta a medida que aumenta la distancia. Si habilita el parámetro Mostrar resultados de forma gráfica, observará que la línea ObservedK se inclina en las distancias más grandes.
-
Matemáticamente, la herramienta Análisis cluster espacial de distancia múltiple utiliza una transformación común de la Función K de Ripley donde el resultado esperado en un conjunto de puntos aleatorio equivale a la distancia de entrada. A continuación, se muestra la transformación L(d).
donde A es el área, N es el número de puntos, d es la distancia y k(i, j) es el peso, que es 1 (si no hay corrección de límites) cuando la distancia entre i y j es menor o igual que d y 0 cuando la distancia entre i y j es mayor que d. Cuando se aplica la corrección de bordes, el peso de k(i,j) se modifica levemente.
-
Las capas del mapa se pueden utilizar para definir la Clase de entidad de entrada. Cuando se utiliza una capa con una selección, sólo las entidades seleccionadas se incluyen en el análisis.
Al utilizar shapefiles tenga en cuenta que no pueden almacenar valores nulos. Las herramientas u otros procedimientos que crean shapefiles a partir de entradas sin shapefiles pueden almacenar o interpretar valores nulos como cero. En algunos casos, los nulos se almacenan como valores negativos muy grandes en shapefiles. Esto puede ocasionar resultados inesperados. Consulte Consideraciones de geoprocesamiento para la salida del shapefile para obtener más información.
Sintaxis
Parámetro | Explicación | Tipo de datos |
Input_Feature_Class |
La clase de entidad sobre la que se realizará el análisis. | Feature Layer |
Output_Table |
La tabla en la que se escribirán los resultados del análisis. | Table |
Number_of_Distance_Bands |
El número de veces que se incrementará el tamaño de la vecindad y se analizará el dataset para el clustering. El punto de inicio y el tamaño del incremento se especifican en los parámetros Distancia de inicio e Incremento de distancia, respectivamente. | Long |
Compute_Confidence_Envelope (Opcional) |
El sobre de confianza se calcula colocando puntos de entidades (o valores de entidades) de forma aleatoria en el área de estudio. El número de puntos/valores que se colocan de forma aleatoria equivale al número de puntos en la clase de entidad. Cada conjunto de ubicaciones aleatorias se denomina "permutación" y el sobre de confianza se crea a partir de estas permutaciones. Este parámetro le permite seleccionar la cantidad de permutaciones que desea utilizar para crear el sobre de confianza.
| String |
Display_Results_Graphically (Opcional) |
| Boolean |
Weight_Field (Opcional) |
Un campo numérico con pesos que representan el número de entidades/eventos en cada ubicación. | Field |
Beginning_Distance (Opcional) |
La distancia a la que se inicia el análisis de cluster y la distancia desde la que se incrementa. El valor introducido para este parámetro debe estar en las unidades del sistema de coordenadas de salida. | Double |
Distance_Increment (Opcional) |
La distancia que se va a incrementar durante cada iteración. La distancia que se utiliza en el análisis comienza en la Distancia de inicio y se incrementa según la cantidad especificada en Incremento de distancia. El valor introducido para este parámetro debe estar en las unidades del sistema de coordenadas de salida. | Double |
Boundary_Correction_Method (Opcional) |
El método que se utilizará para corregir las infravaloraciones en el número de vecinos para las entidades cercanas a los bordes del área de estudio.
| String |
Study_Area_Method (Opcional) |
Especifica la región que se utilizará para el área de estudio. La Función K es sensible a los cambios en el tamaño del área de estudio, por lo que es importante seleccionar este valor cuidadosamente.
| String |
Study_Area_Feature_Class (Opcional) |
La clase de entidad que delinea el área sobre la cual se debe analizar la clase de entidad de entrada. Se debe especificar sólo si la Clase de entidad de área de estudio proporcionada por el usuario para el parámetro Método de área de estudio está seleccionada. | Feature Layer |
Ejemplo de código
La siguiente secuencia de comandos de la ventana de Python muestra cómo utilizar la herramienta Multi-DistanceSpatialClusterAnalysis.
import arcpy arcpy.env.workspace = r"C:\data" arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp","kFunResult.dbf", 11,"0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE","NO_REPORT", "#", 1000, 200,"REDUCE_ANALYSIS_AREA","MINIMUM_ENCLOSING_RECTANGLE", "#")
La siguiente secuencia de comandos de Python independiente muestra cómo utilizar la herramienta Multi-DistanceSpatialClusterAnalysis.
# Use Ripley's K-Function to analyze the spatial distribution of 911 # calls in Portland Oregon # Import system modules import arcpy # Set the geoprocessor object property to overwrite existing outputs arcpy.gp.overwriteOutput = True # Local variables... workspace = r"C:\Data" try: # Set the current workspace (to avoid having to specify the full path to the feature classes each time) arcpy.env.workspace = workspace # Set Distance Band Parameters: Analyze clustering of 911 calls from # 1000 to 3000 feet by 200 foot increments numDistances = 11 startDistance = 1000.0 increment = 200.0 # Process: Run K-Function... kFun = arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp", "kFunResult.dbf", numDistances, "0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE", "NO_REPORT", "#", startDistance, increment, "REDUCE_ANALYSIS_AREA", "MINIMUM_ENCLOSING_RECTANGLE", "#") except: # If an error occurred when running the tool, print out the error message. print arcpy.GetMessages()
Entornos
- Sistema de coordenadas de salida
La geometría de la entidad se proyecta al Sistema de coordenadas de salida antes del análisis, por lo tanto los valores introducidos para los parámetros Banda de distancia o Distancia de umbral deben coincidir con los que se especificaron en el Sistema de coordenadas de salida. Todos los cálculos matemáticos se basan en la referencia espacial del sistema de coordenadas de salida.