Interpretar los resultados de regresión exploratoria
Cuando ejecuta la herramienta Regresión exploratoria, la salida principal es un informe. El informe se puede ver en la ventana de los mensajes de geoprocesamiento cuando la ejecuta en primer plano, o se puede acceder desde la ventana Resultados. De manera opcional, también se creará una tabla que puede ayudarle a investigar aún más los modelos que han sido probados. Uno de los propósitos del informe es ayudarlo a averiguar si las variables explicativas del candidato que está considerando producen algún modelo OLS debidamente especificado o no. En el caso que no haya modelos que pasen (modelos que cumplen todos los criterios que especificó cuando lanzó la herramienta Regresión exploratoria), sin embargo, la salida también le mostrará qué variables son indicadores consistentes y le ayudará a determinar qué diagnósticos le están dando problemas. Las estrategias para abordar problemas asociados con cada uno de lo diagnóstico se proporcionan en el documento Conceptos básicos del análisis de regresión (consulte Problemas comunes de regresión, consecuencias y soluciones) y en Lo que no le dicen sobre el análisis de regresión. Para obtener más información sobre cómo determinar si tiene o no un modelo OLS especificado adecuadamente, consulte Conceptos básicos del análisis de regresión e Interpretar los resultados de OLS.
El informe
El informe Regresión exploratoria tiene cinco secciones distintas. Cada sección se describe a continuación.
1. Mejores modelos por número de variables explicativas
El primer conjunto de resúmenes en el informe de salida se agrupa por el número de variables explicativas en los modelos probados. Si especifica un 1 para el parámetro Número mínimo de variables explicativas y un 5 para el parámetro Número máximo de variables explicativas, tendrá 5 secciones de resumen. Cada sección enumera los tres modelos con los máximos valores R2 ajustados y todos los modelos que pasan. Cada sección de resumen también incluye los valores de diagnóstico para cada modelo enumerado: criterio de información Akaike corregido - AICc, valor p Jarque-Bera - JB, valor p Breusch-Pagan estudentizado de Koenker - K(BP), el mayor Factor de inflación de la varianza - VIF y una medida de Autocorrelación espacial residual (el valor p de I de Global Moran) - SA. Estos resúmenes le dan una idea de lo bien que están prediciendo los modelos (Adj R2), y si algún modelo pasa todos los criterios de diagnóstico que especificó. Si ha aceptado la totalidad de los Criterios de búsqueda predeterminados (parámetros R cuadrado ajustado mínimo aceptado, Valor límite del valor p de coeficiente máximo, Valor límite de valor VIF máximo, valor p de Jarque Bera mínimo aceptable y valor p de autocorrelación espacial mínimo aceptable), incluidos todos los modelos en la lista de Modelos que pasan serán modelos OLS debidamente especificados.
Si no hay ningún modelo que pase, el resto del informe de salida aún proporciona mucha buena información sobre las relaciones de variables, y puede ayudarle a tomar decisiones sobre la forma de avanzar.
2. Resumen global de regresión exploratoria
La sección Resumen global de regresión exploratoria es un punto de partida importante, sobre todo si no ha encontrado ningún modelo que pase, porque le muestra por qué ninguno de los modelos está pasando. En esta sección se muestran las cinco pruebas de diagnóstico y el porcentaje de modelos que aprobó cada una de esas pruebas. Si no tiene ningún modelo que haya pasado, este resumen le ayudará a comprender que prueba de diagnóstico le está dando problemas.
A menudo el diagnóstico que le está dando problemas será la prueba I de Global Moran para la Autocorrelación espacial (SA). Cuando todos los modelos que se han probado tienen residuales de regresión autocorrelacionados, a menudo indica que faltan variables explicativas clave. Una de las mejores maneras de encontrar las variables explicativas que faltan es examinar el mapa de la salida de residuales desde la herramienta regresión de Mínimos cuadrados ordinarios (OLS). Elija uno de los modelos de regresión exploratorios que tuvieron un buen resultado para todos los demás criterios (utilice las listas de los valores R cuadrado, ajustados y más altos, o seleccione un modelo de aquellos en la tabla de salida opcional) y, luego ejecute OLS utilizando ese modelo. La salida desde la herramienta regresión de Mínimos cuadrados ordinarios (OLS) es un mapa de los residuales del modelo. Usted debe analizar los residuales para ver si proporcionan pistas sobre lo que puede estar faltando. Trate de pensar en todas las variables espaciales candidato como pueda (distancia a las principales carreteras, hospitales u otras entidades geográficas clave, por ejemplo). Considere probar las variables del régimen espacial: si todas las predicciones escasas están en las áreas rurales, por ejemplo, cree una variable simulada para ver si mejoran los resultados de la regresión de exploración.
El otro diagnóstico que comúnmente es problemático es la prueba Jarque-Bera de residuales normalmente distribuidos. Cuando ninguno de los modelos pase la prueba Jarque-Bera (JB), tiene un problema con la influencia del modelo. Los orígenes comunes de la influencia del modelo incluyen:
- Relaciones no lineales
- Valores atípicos de datos
La visualización de una matriz de gráficos de dispersión de las variables explicativas del candidato en relación con su variable dependiente le mostrará si tiene cualquiera de estos problemas. Las estrategias adicionales se describen en Conceptos básicos del análisis de regresión. Si los modelos no pasan la prueba de Autocorrelación espacial (SA), arregle esos problemas primero. La influencia puede ser el resultado de las variables explicativas clave faltantes.
3. Resumen de significancia de la variable
La sección Resumen de significancia de la variable proporciona información acerca de las relaciones de las variables y qué tan consistentes con esas relaciones. Cada variable explicativa del candidato se enumera con la proporción de veces en la que fue estadísticamente significativa. Los primeras variables en la lista tienen los valores más grandes de la columna % significativo. También puede ver cómo son las relaciones de variables estables al examinar las columnas % negativo y % positivo. Los indicadores fuertes serán consistentemente significativos (% significativo) y la relación será estable (principalmente negativo o principalmente positivo).
Esta parte del informe también está ahí para ayudarle a ser más eficiente. Esto es especialmente importante cuando trabaja con muchas variables explicativas de candidatos (más de 50) y quiere probar modelos con cinco o más indicadores. Cuando tiene un gran número de variables explicativas y está probando muchas combinaciones, los cálculos pueden tomar mucho tiempo. De hecho, en algunos casos, la herramienta no terminará en absoluto debido a errores de memoria. Un buen enfoque es aumentar gradualmente el número de modelos que se prueban: empiece por establecer tanto la Número mínimo de variables explicativas como la Número máximo de variables explicativas en 2, luego 3, después 4, y así sucesivamente. Con cada ejecución, elimine las variables que rara vez son estadísticamente significativas en los modelos probados. Esta sección del Resumen de significancia variable le ayudará a encontrar esas variables que son sistemáticamente indicadores fuertes. Incluso eliminar una variable explicativa del candidato de la lista puede reducir en gran medida la cantidad de tiempo que se necesita para que se complete la herramienta Regresión exploratoria.
4. Resumen de multicolinealidad
La sección Resumen de la multicolinealidad del informe se puede utilizar junto con la sección del Resumen de significancia variable para comprender qué variables explicativas del candidato se pueden eliminar de su análisis para mejorar el rendimiento. La sección Resumen de multicolinealidad indica cuántas veces se incluyó cada variable explicativa en un modelo con alta multicolinealidad, y las demás variables explicativas que también se incluyeron en esos modelos. Cuando dos (o más) variables explicativas se encuentran juntas con frecuencia en los modelos con alta multicolinealidad, indica que esas variables pueden estar contando la misma historia. Puesto que solo desea incluir las variables que explican un único aspecto de la variable dependiente, es posible que desee elegir solo una de las variables redundantes para incluirla en un análisis más profundo. Una método es utilizar la más fuerte de las variables redundantes basada en el Resumen de significancia variable.
5. Resúmenes de diagnóstico adicionales
Los resúmenes de diagnóstico finales muestran los valores p Jarque-Bera más altos (Resumen de normalidad residual) y los valores p I de Global Moran más altos (Resumen de autocorrelación residual). Para pasar estas pruebas de diagnóstico, usted busca valores p grandes.
Estos resúmenes no son especialmente útiles cuando los modelos pasan la prueba Jarque-Bera y de Autocorrelación espacial (I de Global Moran), porque si su criterio para la significancia estadística es de 0,1, todos los modelos con valores más grandes que 0,1 son igualmente modelos que sí pasan. Estos resúmenes son útiles, sin embargo, cuando no se tiene ningún modelo que pase la prueba y desea ver lo lejos que está de haber distribuido normalmente los residuales o residuales que estén libres de la autocorrelación espacial estadísticamente significativa. Por ejemplo, si todos los valores p del resumen Jarque-Bera son 0,000000, es claro que está lejos de tener residuales distribuidos normalmente. Como alternativa, si los valores p son 0,092, entonces sabemos que está cerca de tener residuales que se distribuyen normalmente (de hecho, dependiendo del nivel de significado que eligió, un valor p de 0,092 podría aprobar). Estos resúmenes están ahí para demostrar la gravedad del problema y, cuando ninguno de los modelos pasa, qué variables están asociadas con los modelos que al menos se acercan a pasar la prueba.
La tabla
Si proporciona un valor para la Tabla de resultados de salida, se creará una tabla que contiene todos los modelos que reunieron los criterios del Límite máximo del valor p del coeficiente y Valor límite de valor VIF máximo. Incluso si no tiene ningún modelo que pase, existe una buena posibilidad de que tendrá algunos modelos en la tabla de salida. Cada fila de la tabla representa un modelo que reúne sus criterios para los valores del coeficiente y valores VIF. Las columnas en la tabla proporcionan el diagnóstico del modelo y las variables explicativas. Los diagnóstico que se enumeran son R cuadrado ajustada (R2), Criterio de información de Akaike corregido (AICc), valor p de Jarque-Bera (JB), valor p de Breusch-Pagan estudentizado de Koenker (BP), Factor de inflación de la varianza (VIF) y valor p I de Global Moran (SA). Es posible que quiera ordenar los modelos por sus valores AICc. Mientras más bajo sea el valor de AICc, mejor es el modelo a realizar. Puede ordenar los valores de AICc en ArcMap al hacer doble clic en la columna del AICc. Si está seleccionando un modelo para usarlo en un análisis de OLS (para examinar los residuales), recuerde elegir un modelo con un valor AICc bajo y aprobar valores para tantos de los demás diagnósticos como sea posible. Por ejemplo, si ha analizado su informe de salida y sabe que Jarque-Bera fue el diagnóstico que le dio problema, debe buscar el modelo con el valor de AICc más bajo que cumpla con todos los criterios excepto el de Jarque-Bera.
Recursos adicionales
Si es nuevo en el análisis de regresión en ArcGIS, le animamos a ver el Seminario gratuito de entrenamiento sobre la regresión en el campus virtual de Esriy luego, recorra el Tutorial de análisis de regresión antes de utilizar Regresión exploratoria.
También es posible que desee ver:
- Más información sobre cómo funciona la Regresión exploratoria
- Lo que no le cuentan sobre el análisis de regresión
- Conceptos básicos del análisis de regresión
Burnham, K.P. and D.R. Anderson. 2002. Model Selection and Multimodel Inference: a practical information-theoretic approach, 2nd Edition. New York: Springer. Sección 1.5.
Además, consulte la página de Recursos de estadística espacial para ver nuevos vídeos, tutoriales y otros materiales de entrenamiento.