Interpretar resultados de GWR
La salida generada de la herramienta Regresión ponderada geográficamente (GWR) incluye lo siguiente:
- Clase de entidad de salida
- Superficies de ráster de coeficiente opcional
- Informe de los resultados del modelo general en la ventana Mensaje
- Tabla complementaria que muestra las variables del modelo y los resultados de diagnóstico
- Clase de entidad de salida de predicción
Cada una de las salidas anteriores se muestra y se describe a continuación como una serie de pasos para ejecutar GWR e interpretar los resultados de GWR. Por lo general, comienza el análisis de regresión con Mínimos cuadrados ordinarios (OLS). Para obtener más información, consulte Conceptos básicos del análisis de regresión e Interpretar los resultados de regresión de OLS. Un enfoque común para el análisis de regresión es identificar el mejor modelo OLS posible antes de pasar a GWR. Este enfoque proporciona el contexto para los pasos a continuación.
(A) Abra la ventana de resultados, si es necesario. Después de que haya identificado uno o más modelos de regresión posibles mediante la herramienta Regresión de OLS, ejecute esos modelos con GWR. Excluya de su modelo GWR cualquier variable binaria regional (dummy), ya que éstas crearán problemas con la multicolinealidad local y no se necesitan con GWR. Deberá proporcionar una Clase de entidad de entrada con la Variable dependiente que desea modelar/explicar/prever y todas las Variables explicativas del modelo. También deberá proporcionar un nombre de ruta para la Clase de entidad de salida, un Tipo Kernel (núcleo), ya sea fijo o adaptable, y un Método ancho de banda (AIC, CV o un valor proporcionado por el usuario). Si, para el método ancho de banda, selecciona el parámetro Ancho de banda, deberá proporcionar una Distancia específica (para el tipo Kernel (núcleo) FIJO) o una Cantidad de vecinos específica (para el tipo Kernel (núcleo) ADAPTABLE). También puede proporcionar valores para los parámetros opcionales que se describieron en ladocumentación de la herramienta GWR. Un parámetro opcional especialmente interesante es el Espacio de trabajo coeficiente ráster. Cuando proporciona un nombre de ruta de la carpeta para este parámetro, la herramienta GWR creará superficies de ráster de coeficiente (que se describen a continuación) para la intercepción del modelo y cada variable explicativa.
(B) Examine el informe del resumen estadístico escrito en la ventana Resultados. Al hacer clic con el botón derecho del ratón en la entrada Mensajes de la ventana Resultados y seleccionar Ver, se muestra el informe del resumen de GWR en un cuadro de diálogo Mensaje. Si ejecuta esta herramienta en primer plano, también se muestra el informe de resumen en el cuadro de diálogo de progreso. A continuación, se describe cada uno de los diagnósticos informados.
- Ancho de banda o vecinos: Esto es el ancho de banda o la cantidad de vecinos que se utiliza para cada estimación local y es quizás el parámetro más importante para la Regresión ponderada geográficamente. Controla el grado de suavizado en el modelo. Generalmente, permitirá que el programa elija un valor de ancho de banda o vecino al seleccionar AICc (el criterio de información de Akaike corregido) o CV (validación cruzada) para el parámetro Método ancho de banda. Las dos opciones tratan de identificar una distancia fija óptima o una cantidad de vecinos adaptable óptima. Ya que los criterios para "óptimo" son distintos para AICc que para CV, es común obtener un valor óptimo diferente. También puede proporcionar una distancia fija exacta o una cantidad de vecinos particular al seleccionar el PARÁMETRO ANCHO DE BANDA para el Método ancho de banda.
Las unidades de ancho de banda dependen del Tipo Kernel (núcleo) especificado. Si selecciona FIJO, el valor de ancho de banda reflejará una distancia en las mismas unidades que la Clase de entidad de entrada (por ejemplo, si la clase de entidad de entrada se proyecta con coordenadas UTM, la distancia informada será en metros). Si selecciona ADAPTABLE, la distancia del ancho de banda cambiará de acuerdo con la densidad espacial de las entidades en la Clase de entidad de entrada. El ancho de banda se convierte en una función del número de vecinos más próximos de tal forma que cada estimación local se basa en el mismo número de entidades En lugar de una distancia específica, se informa la cantidad de vecinos que se utiliza para el análisis.
- ResidualSquares: Esto es la suma de los residuales cuadrados en el modelo (el residual que es la diferencia entre un valor y observado y el valor estimado que devuelve el modelo GWR). Cuanto menor sea esta medida, más próximo estará el ajuste del modelo GWR a los datos observados. Este valor se utiliza en una cantidad de otras medidas de diagnóstico.
- EffectiveNumber: Este valor refleja un equilibrio entre la varianza de los valores ajustados y la influencia en las estimaciones de coeficiente, y se relaciona con la opción de ancho de banda. Debido a que el ancho de banda se acerca al infinito, los pesos geográficos para cada enfoque de observación 1, y las estimaciones de coeficiente estarán muy cerca de aquellos para un modelo OLS global. Para anchos de banda muy grandes, el número efectivo de coeficientes se acerca al número real; las estimaciones de coeficiente local tendrán una pequeña varianza pero estarán un poco influenciadas. Por el contrario, debido a que el ancho de banda se acerca a cero, los pesos geográficos para cada observación se acercan a cero con la excepción del punto de regresión. Para los anchos de banda extremadamente pequeños, el número efectivo de coeficientes es el número de observaciones, y las estimaciones de coeficiente local tendrán una varianza grande pero una baja influencia. El número efectivo se utiliza para calcular un número de medidas de diagnóstico.
- Sigma: Este valor es la raíz cuadrada de la suma de cuadrados residual normalizada, donde la suma de los cuadrados residual se divide por los grados de libertad efectivos del residual. Esta es la desviación estándar estimada para los residuales. Se prefieren los valores más pequeños de esta estadística. Sigma se utiliza para cómputos de AICc.
- AICc: Esta es una medida del rendimiento del modelo y es útil para comparar distintos modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AICc más bajo proporciona un mejor ajuste para los datos observados. AICc no es una medida absoluta de la bondad de ajuste pero es útil para comparar los modelos con distintas variables explicativas siempre y cuando se apliquen a la misma variable dependiente. Si los valores AICc para los dos modelos difieren por más de 3, se sostiene que el modelo con el AICc más bajo es el mejor. Comparar el valor AICc de GWR con el valor AICc de OLS es una forma de evaluar los beneficios de cambiar de un modelo global (OLS) a un modelo de regresión local (GWR).
- R2: R cuadrado es una medida de la bondad de ajuste. Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión. El denominador para el cálculo de R2 es la suma de los valores de la variable dependiente cuadrada. Agregar una variable explicativa extra al modelo no altera el denominador pero sí altera el numerador; esto brinda la impresión de mejora en el ajuste del modelo que puede no ser real. Consulte el R2 ajustado a continuación.
- R2Adjusted: Debido al problema descrito más arriba para el valor R2, los cálculos para el valor R cuadrado ajustado normalizan el numerador y denominador mediante los grados de libertad. Esto tiene el efecto de compensar el número de variables en un modelo y, por consiguiente, el valor R2 ajustado es casi siempre más pequeño que el valor R2. Sin embargo, al realizar este ajuste, pierde la interpretación del valor como una proporción de la varianza explicada. En GWR, el número efectivo de grados de libertad es una función del ancho de banda, por lo tanto el ajuste puede estar bastante marcado en comparación con un modelo global como OLS. Por esta razón, se prefiere el AICc como medio de comparación de los modelos.
Los diagnósticos de la ventana Mensaje se escriben en una tabla complementaria (_supp) junto con la información del resumen sobre los parámetros y las variables del modelo.
(C) Examine los residuales de la clase de entidad de salida.
Las predicciones escasas y excesivas para un modelo de regresión bien especificado se distribuirán aleatoriamente. El clustering de predicción excesiva o escasa es evidencia de que falta al menos una variable de explicación clave. Examine los patrones en los residuales del modelo OLS y GWR para ver si proporcionan pistas sobre cuáles podrían ser esas variables que faltan. Ejecute la herramienta Autocorrelación espacial (I de Moran) en los residuales de regresión para asegurarse de que sean espacialmente aleatorias. El clustering estadísticamente significativo de residuales altos o bajos (predicciones escasas y excesivas del modelo) indica que el modelo GWR se especificó mal.
Además de los residuales de regresión, la Clase de entidad de salida incluye campos para los valores y observados y previstos, número de condición (cond), R2 local, coeficientes de variable explicativa y errores estándar:
- Número de condición: Este diagnóstico evalúa la multicolinealidad local. En presencia de una multicolinealidad local sólida, los resultados se vuelven inestables. Los resultados asociados con los números de condición mayores que 30 pueden ser poco confiables.
- R2 local: Estos valores están entre 0,0 y 1,0 e indican lo bien que se ajusta el modelo de regresión local a los valores y observados. Los valores muy bajos indican que el modelo local está funcionando mal. Asignar los valores R2 locales para ver dónde GWR hace una buena predicción y dónde hace una mala predicción puede proporcionar pistas sobre las variables importantes que pueden faltar en el modelo de regresión.
- Previstos: Estos son los valores y estimados (o ajustados) que calcula GWR.
- Valores residuales: Para obtener los valores residuales, los valoresy ajustados se restan de los valores y observados. Los residuales estandarizados tienen un valor medio de cero y una desviación estándar de 1. Un mapa de residuales estandarizados representado frío a cálido se agrega automáticamente a la tabla de contenido cuando GWR se ejecuta en ArcMap.
- Error estándar de coeficiente: Estos valores miden la confiabilidad de cada estimación de coeficiente. La confianza en esas estimaciones es mayor cuando los errores estándar son pequeños en relación con los valores de coeficiente reales. Los grandes errores estándar pueden indicar problemas con la multicolinealidad local.
(D) Examine las superficies de ráster de coeficiente creadas por GWR (o con datos de polígono, una representación de color graduado de los coeficientes a nivel de entidad ) para comprender mejor la variación regional en las variables explicativas del modelo. Cuando utiliza GWR para modelar alguna variable (la variable dependiente), generalmente esta interesado en prever los valores o comprender los factores que contribuyen a los resultados de la variable dependiente. Sin embargo, también le interesa examinar cuán consistentes (estacionarias) espacialmente son las relaciones entre la variable dependiente y cada variable explicativa a través del área de estudio. Examinar la distribución de coeficiente a medida que una superficie muestra dónde y cuánto está presente la variación. Puede utilizar el entendimiento de esta variación para informar la política:
- Las variables globales estadísticamente significativas que exhiben poca variación regional informan la política a nivel regional.
- Las variables globales estadísticamente significativas que exhiben una variación regional sólida informan la política local.
- Es posible que algunas variables no sean globalmente significativas, debido a que en algunas regiones se relacionan positivamente y en otras se relacionan negativamente.
(E) Predicciones GWR de mapa. GWR se puede utilizar para prever cuándo se aplica a los datos de muestreo. Especifique una clase de entidad que contenga todas las variables explicativas para las ubicaciones donde se desconoce la variable dependiente. GWR calibra la ecuación de regresión mediante los valores de la variable dependiente de la Clase de entidad de entrada, después crea una nueva Clase de entidad de salida con estimaciones de la variable dependiente.