Conceptos básicos del análisis de regresión

La caja de herramientas Estadística espacial proporciona herramientas efectivas para cuantificar los patrones espaciales. Al utilizar la herramienta Análisis de punto caliente, por ejemplo, puede realizar preguntas como éstas:

Análisis de punto caliente de las llamadas de emergencia al 911
El análisis de datos de llamadas de emergencia al 911 que muestran puntos calientes de llamadas (rojos), puntos fríos de llamadas (azules) y ubicaciones de las unidades policiales y de bomberos responsables de responder (cruces verdes)

Cada una de las preguntas anteriores preguntan "¿dónde?" La próxima pregunta lógica para los tipos de análisis anteriores incluye "¿por qué?"

Las herramientas en el conjunto de herramientas Modelado de relaciones espaciales le ayudan a responder este segundo grupo de preguntas que empiezan con por qué. Estas herramientas incluyen regresión Mínimos cuadrados ordinarios (OLS) y Regresión ponderada geográficamente.

Relaciones espaciales

El análisis de regresión le permite modelar, examinar y explorar relaciones espaciales y puede ayudar a explicar los factores detrás de los patrones espaciales observados. Es posible que desee entender por qué las personas mueren constantemente jóvenes en ciertas regiones del país o qué factores contribuyen a tasas de diabetes más altas de lo esperado. Sin embargo, al modelar las relaciones espaciales, el análisis de regresión también se puede utilizar para la predicción. Modelar los factores que contribuyen a tasas de graduación universitaria, por ejemplo, le permite hacer predicciones sobre los próximos recursos y habilidades de la fuerza de trabajo. También puede utilizar la regresión para prever las precipitaciones o la calidad del aire en casos donde la interpolación no es suficiente debido a la escasez de estaciones de monitoreo (por ejemplo, los pluviómetros a veces son escasos en crestas de montaña y en valles).

OLS es la más conocida de todas las técnicas de regresión. También es el punto de inicio adecuado para todos los análisis de regresión espacial. Proporciona un modelo global de la variable o proceso que intenta entender o prever (muerte/precipitación temprana); crea una ecuación de regresión simple para representar ese proceso. La regresión ponderada geográficamente (GWR) es una de varias técnicas de regresión espacial, que se utiliza cada vez más en geografía y otras disciplinas. GWR proporciona un modelo local de la variable o proceso que intenta entender/prever al ajustar una ecuación de regresión a cada entidad en el dataset. Cuando se utilizan correctamente, estos modelos proporcionan estadísticas poderosas y confiables para examinar y calcular las relaciones lineales.

Las relaciones lineales son positivas o negativas. Si descubre que el número de eventos de búsqueda y rescate aumenta cuando aumentan las temperaturas diurnas, se dice que la relación es positiva; hay una correlación positiva. Otra forma de expresar esta relación positiva es decir que los eventos de búsqueda y rescate disminuyen a medida que disminuyen las temperaturas diurnas. Por el contrario, si descubre que la cantidad de delitos disminuye a medida que la cantidad de agentes de policía que patrullan un área aumenta, se dice que la relación es negativa. También puede expresar esta relación negativa al establecer que la cantidad de delitos aumenta a medida que la cantidad de agentes de policía que patrullan disminuye. El gráfico a continuación muestra relaciones positivas y negativas, así como también el caso donde no hay relación entre dos variables:

Relación positiva, Relación negativa, No hay relación
Gráficos de dispersión: una relación positiva, una relación negativa y un caso donde dos variables no se relacionan

Los análisis de correlación y sus gráficos asociados que se muestran anteriormente prueban la fortaleza de la relación entre las dos variables. Los análisis de regresión, por su parte, van más allá e intentan demostrar el grado hasta el cual una o más variables pueden favorecer un cambio positivo o negativo en otra variable.

Aplicaciones del análisis de regresión

El análisis de regresión se puede utilizar para una gran variedad de aplicaciones:

Existen tres razones principales por las que puede desear utilizar el análisis de regresión:

Términos y conceptos del análisis de regresión

Es imposible discutir el análisis de regresión sin familiarizarse primero con algunos términos y conceptos básicos específicos de la estadística de regresión:

Ecuación de regresión: Esta es la fórmula matemática que se aplica a las variables explicativas para prever mejor la variable dependiente que intenta modelar. Desgraciadamente para aquellos geocientíficos que piensan en x e y como coordenadas, la anotación en las ecuaciones de regresión para la variable dependiente es siempre y y para la variable independiente o explicativa es siempre X. Cada variable independiente está asociada a un coeficiente de regresión que describe la longitud y el signo de la relación de esa variable con la variable dependiente. Una ecuación de regresión puede tener un aspecto como este (y es la variable dependiente, las X son las variables explicativas y las β son coeficientes de regresión; cada uno de estos componentes de la ecuación de regresión se explican en más detalle a continuación):

Ecuación de regresión de OLS
Elementos de una ecuación de regresión de OLS

Valores P: La mayoría de los métodos de regresión realizan una prueba estadística para calcular una probabilidad, llamada valor P, para los coeficientes asociados a cada variable independiente. La hipótesis nula para esta prueba estadística establece que un coeficiente no es significativamente distinto a cero (en otras palabras, para todos los intentos y propósitos, el coeficiente es cero y la variable explicativa asociada no ayuda al modelo). Los valores P pequeños reflejan pequeñas probabilidades y sugieren que el coeficiente es, sin duda, importante para su modelo con un valor que es significativamente distinto a cero (en otras palabras, un valor P pequeño indica que el coeficiente no es cero). Usted diría que un coeficiente con un valor P de 0,01, por ejemplo, es estadísticamente significativo en el 99 por ciento del nivel de confianza; la variable asociada es un indicador efectivo. Las variables con coeficientes cercanos a cero no ayudan a prever o modelar la variable dependiente; casi siempre se quitan de la ecuación de regresión, a menos que haya razones teóricas fuertes para mantenerlos.

R2/R cuadrado: R cuadrado múltiple y R cuadrado ajustado son estadísticas derivadas de la ecuación de regresión para cuantificar el rendimiento del modelo. El valor de R cuadrado va desde 0 a 100 por ciento. Si su modelo se ajusta perfectamente a los valores de la variable dependiente observados, R cuadrado es 1,0 (e indudablemente ha cometido un error; quizás utilizó una forma de y para prever y). Los más probable es que verá valores R cuadrado como 0,49, por ejemplo, que puede interpretar al decir: "Este modelo explica el 49 por ciento de la variación en la variable dependiente". Para entender a dónde está llegando el valor R cuadrado, cree un gráfico de barras que muestre los valores y estimados y observados ordenados por los valores estimados. Observe cuánta superposición hay. Este gráfico proporciona una representación visual de lo bien que los valores previstos del modelo explican la variación en los valores de la variable dependiente observados. Ver una ilustración. El valor R cuadrado ajustado siempre es un poquito más bajo que el valor R cuadrado múltiple porque refleja la complejidad del modelo (el número de variables) a medida que se relaciona con los datos. Por consiguiente, el valor R cuadrado ajustado es una medida más precisa del rendimiento del modelo.

Residuales: Son la parte sin explicar de la variable dependiente, representada en la ecuación de regresión como el término de error aleatorio ε. Ver una ilustración. Los valores conocidos de la variable dependiente se utilizan para crear y calibrar el modelo de regresión. Al utilizar valores conocidos para la variable dependiente (y) y valores conocidos para todas las variables explicativas (las X), la herramienta de regresión construye una ecuación que preverá esos valores y conocidos y posibles. Sin embargo, los valores previstos raramente coinciden exactamente con los valores observados. La diferencia entre los valores y observados y los valores y previstos se llama residual. La magnitud de los residuales de una ecuación de regresión es una medida del ajuste del modelo. Los grandes residuales indican un ajuste del modelo pobre.

La creación de un modelo de regresión es un proceso iterativo que implica buscar variables independientes efectivas para explicar la variable dependiente que intenta modelar o entender, ejecutar la herramienta de regresión para determinar qué variables son indicadores efectivos, quitar o agregar repetidamente variables hasta que encuentre el mejor modelo de regresión posible. Mientras que el proceso de creación del modelo a veces es exploratorio, nunca debe ser una "expedición de pesca". Debe identificar posibles variables explicativas al consultar la teoría, expertos en el campo y el sentido común. Debe poder establecer y justificar la relación esperada entre cada variable explicativa posible y la variable dependiente antes del análisis, y debe cuestionar los modelos donde estas relaciones no coinciden.

NotaNota:

Si no utilizó el análisis de regresión anteriormente, este podría ser un buen momento para descargar elTutorial de Análisis de regresión y trabajar a través de los pasos 1 a 5.

Problemas del análisis de regresión

La regresión de OLS es un método simple, tiene una teoría bien desarrollada y posee una cantidad de diagnósticos efectivos para ayudar con la interpretación y la solución de problemas. Sin embargo, OLS sólo es efectivo y confiable si los datos y el modelo de regresión cumplen/satisfacen todas las presuposiciones requeridas intrínsecamente por este método (ver la tabla a continuación). Los datos espaciales a veces violan las presuposiciones y requisitos de la regresión de OLS, por eso es importante utilizar herramientas de regresión en conjunto con herramientas de diagnóstico apropiadas que puedan evaluar si la regresión es un método apropiado para el análisis, dada la estructura de los datos y el modelo que se implementará.

Cómo dejan de funcionar los modelos de regresión

Una violación grave de varios modelos de regresión es la mala especificación. Un modelo mal especificado es el que no está completo, le faltan variables explicativas importantes, por eso no representa en forma adecuada lo que está tratando de modelar o prever (la variable dependiente y). En otras palabras, el modelo de regresión no cuenta toda la historia. La mala especificación es evidente siempre que vea una autocorrelación espacial estadísticamente significativa en los residuales de regresión o, dicho de otra manera, siempre que observe que las predicciones excesivas y escasas (residuales) de su modelo tienden a agruparse espacialmente para que las predicciones excesivas se agrupen en algunas porciones del área de estudio y las predicciones escasas se agrupen en otras. Asignar los residuales de regresión o los coeficientes asociados con el análisis de Regresión ponderada geográficamentepor lo general proporcionará pistas sobre lo que perdió. Ejecutar el Análisis de punto caliente en los residuales de regresión también puede ayudar a revelar distintos regímenes espaciales que se pueden modelar en OLS con variables regionales o que se pueden solucionar con el método de regresión ponderada geográficamente. Supongamos que cuando asigna los residuales de regresión ve que el modelo siempre realiza predicciones excesivas en las áreas montañosas y predicciones escasas en los valles; probablemente concluirá que a su modelo le falta una variable de elevación. Sin embargo, habrá momentos donde las variables que faltan serán demasiado complejas de modelar o imposibles de cuantificar o demasiado difíciles de medir. En estos casos, podrá cambiar a GWR o a otro método de regresión espacial para obtener un modelo bien especificado.

La siguiente tabla enumera problemas comunes con los modelos de regresión y las herramientas disponibles en ArcGIS para ayudar a abordarlos:

Problemas, consecuencias y soluciones comunes de regresión

Variables explicativas omitidas (se especificaron mal).

Cuando faltan variables explicativas clave en un modelo de regresión, no se puede confiar en los coeficientes y en los valores P asociados.

Asigne y examine los residuales de OLS y los coeficientes GWR o ejecute el Análisis de punto caliente en los residuales de regresión de OLS para ver si esto proporciona pistas sobre las posibles variables que faltan.

Relaciones no lineales. Ver una ilustración.

OLS y GWR son métodos lineales. Si la relación entre cualquiera de las variables explicativas y la variable dependiente es no lineal, el modelo resultante tendrá un funcionamiento inadecuado.

Cree un gráfico de matriz de diagrama de dispersión para ilustrar las relaciones entre todas las variables en el modelo. Preste mucha atención a las relaciones que incluyen la variable dependiente. La curvilinealidad a veces se puede remediar al transformar las variables. Ver una ilustración. Alternativamente, utilice un método de regresión no lineal.

Valores atípicos de datos. Ver una ilustración.

Los valores atípicos influyentes pueden extraer relaciones de regresión modeladas del mejor ajuste, lo que afecta los coeficientes de regresión.

Cree una matriz de diagrama de dispersión y otros gráficos (histogramas) para examinar los valores de datos extremos. Corrija o quite los valores atípicos si representan errores. Cuando los valores atípicos son valores correctos/válidos, no se pueden/no se deben quitar. Ejecute la regresión con y sin los valores atípicos para ver cuánto afectan sus resultados.

No estacionariedad. Puede descubrir que una variable de ingresos, por ejemplo, tiene un fuerte poder explicativo en la región A pero es insignificante o incluso cambia los signos en la región B. Ver una ilustración.

Si las relaciones entre las variables dependientes y explicativas no son consistentes en el área de estudio, los errores estándar calculados se exagerarán artificialmente.

La herramienta OLS en ArcGIS evalúa automáticamente los problemas asociados con la no estacionariedad (variación regional) y calcula los valores del error estándar sólido. Ver una ilustración. Cuando la probabilidad asociada con la prueba Koenker es pequeña (<0,05, por ejemplo), tiene una variación regional estadísticamente significativa y debe consultar las probabilidades sólidas para determinar si una variable explicativa es estadísticamente significativa o no. A menudo mejorará los resultados del modelo al utilizar la herramienta Regresión ponderada geográficamente.

Multicolinealidad. Una o una combinación de variables explicativas es redundante. Ver una ilustración.

La multicolinealidad conduce a un tipo de influencia que cuenta más y a un modelo inestable/poco confiable.

La herramienta OLS en ArcGIS verifica automáticamente la redundancia. A cada variable explicativa se le otorga un valor VIF calculado. Cuando este valor es grande (> 7,5, por ejemplo), la redundancia es un problema y las variables ofensivas se deben quitar del modelo o se deben modificar al crear una variable de interacción o al incrementar el tamaño de la muestra. Ver una ilustración.

Varianza inconsistente en los residuales. Puede ser que el modelo prevea bien los valores pequeños de la variable dependiente pero se vuelve poco confiable para los valores grandes. Ver una ilustración.

Cuando el modelo hace una mala predicción de algún rango de valores, los resultados estarán influenciados.

La herramienta OLS en ArcGIS evalúa automáticamente la varianza inconsistente de residuales (llamada heteroscedasticidad) y calcula errores estándar que son sólidos para este problema. Cuando la probabilidad asociada con la prueba Koenker es pequeña (<0,05, por ejemplo), debe consultar las probabilidades sólidas para determinar si una variable explicativa es estadísticamente significativa o no. Ver una ilustración.

Residuales de autocorrelación espacial. Ver una ilustración.

Cuando hay clustering espacial de las predicciones escasas/excesivas que sale del modelo, se introduce un tipo de influencia que cuenta más y representa al modelo como poco confiable.

Ejecute la herramienta Autocorrelación espacial en los residuales para asegurarse de que no exhiban clustering espacial estadísticamente significativo. La autocorrelación espacial estadísticamente significativa es casi siempre un síntoma de mala especificación (falta una variable clave en el modelo). Ver una ilustración.

Influencia de distribución normal. Ver una ilustración.

Cuando los residuales del modelo de regresión no se distribuyen normalmente con un valor medio de cero, los valores P asociados con los coeficientes son poco confiables.

La herramienta OLS en ArcGIS evalúa automáticamente si los residuales se distribuyen normalmente. Cuando la estadística Jarque-Bera es significativa (< 0,05, por ejemplo), es probable que su modelo esté mal especificado (falta una variable clave en el modelo) o que algunas de las relaciones que modela sean no lineales. Examine el mapa residual de salida y quizás los mapas de coeficiente GWR para ver si este ejercicio revela las variables clave que faltan en el análisis. Vea los gráficos de matriz de diagrama de dispersión y busque las relaciones no lineales.

Problemas y soluciones comunes de regresión

Es importante verificar cada uno de los problemas que se enumeraron anteriormente. Los resultados pueden ser 100 por ciento incorrectos (180 grados diferentes) si se ignoran los problemas anteriores.

NotaNota:

Si no utilizó el análisis de regresión anteriormente, este podría ser un buen momento para descargar y trabajar con elTutorial de Análisis de regresión.

Regresión espacial

Los datos espaciales exhiben dos propiedades que hacen difícil (pero no imposible) cumplir con las presuposiciones y los requisitos de los métodos estadísticos (no espaciales) tradicionales, como la regresión de OLS:

Los verdaderos métodos de regresión espacial se desarrollaron para administrar de manera sólida estas dos características de los datos espaciales e incluso incorporar estas calidades especiales de los datos espaciales para mejorar su capacidad para modelar las relaciones de los datos. Algunos métodos de regresión espacial tratan de manera efectiva con la primera característica (autocorrelación espacial), otros tratan de manera efectiva con la segunda (no estacionariedad). En este momento, los métodos de regresión espacial son efectivos para las dos características. Sin embargo, para un modelo GWR especificado correctamente, la autocorrelación espacial por lo general no es un problema.

Autocorrelación espacial

Parece haber una gran diferencia entre cómo ve un estadístico tradicional la autocorrelación espacial y cómo ve un estadístico espacial la autocorrelación espacial. El estadístico tradicional la ve como algo malo que se debe quitar de los datos (a través del remuestreo, por ejemplo) porque la autocorrelación espacial viola las presuposiciones subyacentes de varios métodos estadísticos (no espaciales) tradicionales. Sin embargo, para el geógrafo o analista de SIG, la autocorrelación espacial es evidencia de procesos espaciales subyacentes importantes en el trabajo; es un componente integral de los datos. Al quitar espacio, se quitan los datos de su contexto espacial; es como obtener sólo la mitad de la historia. Los procesos espaciales y las relaciones espaciales evidentes en los datos son un interés principal y una de las razones por las que los usuarios de SIG se entusiasman con el análisis de datos espaciales. Sin embargo, para evitar un tipo de influencia que cuente más en su modelo, debe identificar el conjunto completo de variables explicativas que efectivamente capturen la estructura espacial inherente en su variable dependiente. Si no puede identificar todas estas variables, probablemente verá la autocorrelación espacial estadísticamente significativa en los residuales del modelo. Lamentablemente, los resultados de regresión no serán confiables hasta que esto se solucione. Utilice la herramienta Autocorrelación espacial para verificar la autocorrelación espacial estadísticamente significativa en los residuales de regresión.

Hay al menos tres estrategias para tratar con la autocorrelación espacial en los residuales del modelo de regresión:

  1. Remuestree hasta que las variables de entrada ya no exhiban una autocorrelación espacial estadísticamente significativa. Mientras que esto no garantiza que el análisis está libre de problemas de autocorrelación espacial, son mucho menos probables cuando se quita la autocorrelación espacial de las variables dependientes y explicativas. Este es el enfoque del estadístico tradicional para tratar con la autocorrelación espacial y sólo es apropiado si la autocorrelación espacial es el resultado de la redundancia de los datos (el esquema de muestreo es demasiado bueno).
  2. Aísle los componentes espaciales y no espaciales de cada variable de entrada mediante un método de regresión de filtrado espacial. El espacio se quita de cada variable, pero se vuelve a colocar en el modelo de regresión como una nueva variable para dar cuenta de los efectos espaciales/la estructura espacia. ArcGIS actualmente no proporciona métodos de regresión de filtrado espacial.
  3. Incorpore la autocorrelación espacial en el modelo de regresión mediante métodos de regresión econométricos espaciales. Los métodos de regresión econométricos espaciales se agregarán a ArcGIS en una futura versión.

Variación regional

Los modelos globales, como la regresión de OLS, crea ecuaciones que describen mejor las relaciones de datos generales en un área de estudio. Cuando esas relaciones son consistentes en el área de estudio, la ecuación de regresión de OLS modela bien esas relaciones. Sin embargo, cuando esas relaciones se comportan de manera diferente en distintas partes del área de estudio, la ecuación de regresión es más de un promedio de la mezcla de relaciones presentes y, en el caso donde esas relaciones representan dos extremos, el promedio global no modelará bien ningún extremo. Cuando las variables explicativas exhiben relaciones no estacionarias (variación regional), los modelos globales tienden a apartarse a menos que se utilicen métodos sólidos para calcular los resultados de regresión. Idealmente, podrá identificar un conjunto completo de variables explicativas para capturar la variación regional inherente en su variable dependiente. Sin embargo, si no puede identificar todas estas variables espaciales, volverá a observar una autocorrelación espacial estadísticamente significativa en los residuales del modelo o valores R cuadrado menores de lo esperado. Lamentablemente, los resultados de regresión no serán confiables hasta que esto se solucione.

Hay al menos cuatro formas de tratar con la variación regional en los modelos de regresión de OLS:

  1. Incluya una variable en el modelo que explique la variación regional. Por ejemplo, si ve que su modelo siempre realiza predicciones excesivas en el Norte y predicciones escasas en el Sur, agregue una variable regional establecida en 1 para las entidades del Norte y establecida en 0 para las entidades del Sur.
  2. Utilice métodos que incorporen variación regional en el modelo de regresión como Regresión ponderada geográficamente.
  3. Consulte las probabilidades y los errores estándar de regresión sólidos para determinar si los coeficientes de la variable son estadísticamente significativos. Consulte Interpretar los resultados de regresión de OLS. Aún se recomienda la regresión ponderada geográficamente.
  4. Redefina/reduzca el tamaño del área de estudio de manera que los procesos dentro de ésta sean todos estacionarios (para que ya no exhiban una variación regional).

Para obtener más información sobre cómo utilizar las herramientas de regresión, consulte lo siguiente:

Más información sobre la regresión de OLS

Más información sobre la regresión de GWR

Interpretar los resultados de regresión de OLS

Interpretar los resultados de regresión de GWR

Temas relacionados

5/10/2014