Regresión exploratoria (Estadística espacial)
Resumen
La herramienta Regresión exploratoria evalúa todos posibles combinaciones de posibles variables explicativas de entrada, buscando modelos de OLS que expliquen mejor la variable dependiente en el contexto del criterio especificado por el usuario.
Puede acceder a los resultados de esta herramienta (incluido el archivo de informe opcional) desde la ventana Resultados. Si deshabilita el procesamiento en segundo plano, los resultados también se escriben en el cuadro de diálogo Progreso.
Más información sobre cómo funciona la Regresión exploratoria
Ilustración
Uso
-
La principal salida para esta herramienta es un archivo de informe que se escribe en la ventana Resultados. Hacer clic en la entrada Mensajes de la ventana Resultados y seleccionar Ver mostrará el informe del resumen Regresión exploratoria en un cuadro de diálogo Mensaje.
Esta herramienta creará opcionalmente un informe en archivo de texto que resume los resultados. Este archivo de informe se agregará a la tabla de contenido (TOC) y se puede visualizar en ArcMap al hacer clic con el botón derecho del mouse sobre él y seleccionar Abrir.
Esta herramienta también produce una tabla opcional de todos los modelos que cumplen con su máximo valor límite de valor p de coeficiente y criterio de valor Factor de inflación de la varianza (VIF). Una explicación completa de los elementos de informe y de tabla se proporcionan en Interpretar los resultados de Regresión exploratoria.
Esta herramienta utiliza Mínimos cuadrados ordinarios (OLS) y Autocorrelación espacial (I de Moran global). El archivo matrizde ponderaciones espaciales opcional se utiliza con la herramienta Autocorrelación espacial (I de Moran global) para evaluar los residuales de modelo; no es utilizada por la herramienta OLS para nada.
Esta herramienta intenta cada combinación de Posibles variables explicativas introducidas, buscando un modelo OLS especificado adecuadamente. Solo cuando se busca un modelo que cumple con criterios de umbral para Mínimo cuadrado Adj R aceptable, Valor límite máximo valor p de coeficiente, Valor límite máximo valor VIF y valor p Jarque-Bera mínimo aceptable se ejecute la herramienta Autocorrelación espacial (I de Moran global) en los residuales del modelo para ver si las predicciones excesivas/escasas están agrupadas o no. Para proporcionar al menos alguna información sobre el clustering residual en el caso donde ninguno de los modelos aprueban todos estos criterios, la prueba Autocorrelación espacial (I de Moran global) también se aplica a los residuales para los tres modelos que tienen los mayores valores de R2 ajustada y los tres modelos que tienen los mayores valores p Jarque-Bera.
Especialmente cuando hay una fuerte estructura espacial en su variable dependiente, deseará intentar presentar tantas posibles variables explicativas espaciales como pueda. Algunos ejemplos de variables espaciales serían la distancia a las carreteras principales, la accesibilidad para las oportunidades de trabajo, número de oportunidades comerciales locales, medidas de conectividad o densidades. Hasta encontrar las variables explicativas que captura la estructura espacial en su variable dependiente, los residuales de modelo probablemente no pasarán la prueba de autocorrelación espacial. Clustering significativo en los residuales de regresión, según lo determina la herramienta Autocorrelación espacial (I de Moran global), indica la especificación incorrecta del modelo. Las estrategias para hacer frente a la mala especificación se describen en ¿Qué es lo que no le dicen sobre el análisis de regresión?
Debido a que la Autocorrelación espacial (I de Moran global) no se ejecuta para todos los modelos a prueba (consulte la sugerencia de uso anterior), la tabla tendrá datos faltantes para el campo SA (Autocorrelación espacial). Debido a que los archivos .dbf no almacenan valores nulos, estos aparecen como números muy, muy pequeños (negativos) (algo como -1,797693e+308). Para las tablas de geodatabase, estos valores faltantes aparecen como valores nulos. Un valor faltante que indica que los valores residuales para el modelo asociado no han sido probados para la autocorrelación espacial porque el modelo no pasó todos los demás criterios de búsqueda de modelo.
El archivo matriz de ponderaciones espaciales predeterminado se utiliza para ejecutar la herramienta Autocorrelación espacial (I de Moran global) se basa en una conceptualización de relaciones espaciales de 8 vecindades más próximas. Este valor predeterminado se seleccionó principalmente porque se ejecuta con bastante rapidez. Para definir las relaciones de vecindad de forma diferente; sin embargo, simplemente puede crear su propio archivo matrizde ponderaciones espaciales utilizando la herramienta Generar archivo matrizde ponderaciones espacialesy, a continuación, especifique el nombre de archivo de entrada para el parámetro Archivo de matriz de ponderaciones espaciales. Distancia inversa, Contigüidad de polígono o de Vecinos más próximos K, son todas las Conceptualizaciones de relaciones espaciales para las pruebas de los residuales de regresión.
Nota:El archivo matrizde ponderaciones espaciales solo se utiliza para probar los residuales de modelo para la estructura espacial. Cuando un modelo se especifica correctamente, los residuales son espacialmente aleatorios (los residuales grandes se entremezclan con residuales pequeños; los grandes residuales no se agrupan juntos espacialmente).
Sintaxis
Parámetro | Explicación | Tipo de datos |
Input_Features |
La clase de entidad o capa de entidad que contiene las posibles variables dependientes y explicativas a analizar. | Feature Layer |
Dependent_Variable |
El campo numérico que contiene los valores observados desea modelar utilizando OLS. | Field |
Candidate_Explanatory_Variables [Candidate_Explanatory_Variables,...] |
Una lista de campos para tratar como las variables explicativas del modelo OLS. | Field |
Weights_Matrix_File (Opcional) |
Un archivo que contiene las ponderaciones espaciales que definen las relaciones espaciales entre las entidades de entrada. Este archivo se utiliza para evaluar la autocorrelación espacial de los residuales de regresión. Puede utilizar la herramienta Generar archivo matrizde ponderaciones espaciales para crear esto. Cuando usted no proporcionar un archivo matrizde ponderaciones espaciales, los residuales son evaluados por la autocorrelación espacial con base a cada entidad de 8 vecindades más próximas. Nota: El archivo matrizde ponderaciones espaciales solo se utiliza para analizar la estructura espacial de los residuales de modelo; no se utiliza para construir o para calibrar ninguno de los modelos de OLS. | File |
Output_Report_File (Opcional) |
El archivo de informe contiene los resultados de la herramienta, incluidos los detalles sobre todos los modelos encontrados que aprobaron todos los criterios de búsqueda que introdujo. Este archivo de salida también contiene herramientas de diagnóstico para ayudarle a arreglar los problemas de regresión comunes en el caso de que no encuentre ningún modelo que apruebe. | File |
Output_Results_Table (Opcional) |
La tabla de salida opcional creada que contiene las variables explicativas y los diagnósticos para todos los modelos en el valor límite del valor VIF y el coeficiente de valor p. | Table |
Maximum_Number_of_Explanatory_Variables (Opcional) |
Se evaluarán todos los modelos con variables explicativas hasta el valor introducido aquí. Si, por ejemplo, el Minimum_Number_of_Explanatory_Variables es 2 y el Maximum_Number_of Explanatory_Variables es 3, la herramienta Regresión exploratoria probará todos los modelos con cada combinación de dos variables explicativas y todos los modelos con cada combinación de tres variables explicativas. | Long |
Minimum_Number_of_Explanatory_Variables (Opcional) |
Este valor representa el número mínimo de variables explicativas para modelos evaluados. Si, por ejemplo, el Minimum_Number_of_Explanatory_Variables es 2 y el Maximum_Number_of_Explanatory_Variables es 3, la herramienta Regresión exploratoria probará todos los modelos con cada combinación de dos variables explicativas, y todos los modelos con cada combinación de tres variables explicativas. | Long |
Minimum_Acceptable_Adj_R_Squared (Opcional) |
Este es el valor R cuadrado ajustado más bajo que se considera un modelo de aprobación. Si un modelo aprueba todos los demás criterios de búsqueda, pero tiene un valor R cuadrado ajustado menor que el valor introducido aquí, no aparecerá como un modelo aprobado el archivo de informe de salida. Los valores válidos para este parámetro oscilan entre 0,0 a 1,0. El valor predeterminado es 0,5, indicando que los modelos aprobados explicarán al menos 50 por ciento de la variación en la variable dependiente. | Double |
Maximum_Coefficient_p_value_Cutoff (Opcional) |
Para cada modelo evaluado, OLS calcula los valores p de los coeficientes de la variable explicativa. El valor p del valor límite que ingresó aquí representa el nivel de confianza que necesita para todos los coeficientes en el modelo para estudiar el modelo de aprobación. Los valores p pequeños reflejan un mayor nivel de confianza. Los valores válidos para este parámetro van desde 1,0 a 0,0, pero lo más probable es que sean 0,1, 0,05, 0,01, 0,001, y así sucesivamente. El valor predeterminado es 0,05, que indica que los modelos aprobados solo contiene variables explicativas cuyos coeficientes están estadísticamente en el nivel de confianza del 95 por ciento (valores p, menores que 0,05). Para relajar este valor predeterminado debe introducir un valor límite del valor p mayor, como 0,1. Si está recibiendo muchos modelos aprobados, es probable que desee hacer este criterio de búsqueda más estricto al disminuir el valor límite del valor p predeterminado de 0,05 a 0,01 o menos. | Double |
Maximum_VIF_Value_Cutoff (Opcional) |
Este valor refleja cuánta redundancia (multicolinealidad) entre las variables explicativas del modelo se va a tolerar. Cuando el VIF (Factor de inflación de la varianza) es mayor que la multicolinealidad sobre 7,5, puede hacer un modelo inestable; por consiguiente, 7,5 es el valor predeterminado. Si desea que sus modelos aprobados tengan menos redundancia, debe ingresar un valor menor, como 5,0, para este parámetro. | Double |
Minimum_Acceptable_Jarque_Bera_p_value (Opcional) |
El valor p devuelto por la prueba de diagnóstico Jarque-Bera indica si los residuales del modelo se distribuyen normalmente. Si el valor p es estadísticamente significativo (pequeño), los residuales del modelo no son normales y el modelo es influenciado. Los modelos aprobados deben tener valores p Jarque-Bera grandes. El valor p aceptable mínimo predeterminado es 0,1. Solo los modelos que devuelven valores p mayores que este mínimo se considerarán aprobados. Si tiene problemas para encontrar modelos aprobados no influenciados, y deciden relajar este criterio, puede introducir un valor p mínimo más pequeño, como 0,05. | Double |
Minimum_Acceptable_Spatial_Autocorrelation_p_value (Opcional) |
Para los modelos que aprueban todos los demás criterios de búsqueda, la herramienta Regresión exploratoria, verificará los residuales de modelo para el clustering espacial utilizando I de Moran global. Cuando el valor p para esta prueba de diagnóstico es estadísticamente significativo (pequeño), esto indica que al modelo probablemente le faltan variables explicativas clave (no dice toda la historia). Por desgracia, si tiene la autocorrelación espacial de los residuales de regresión, el modelo está mal especificado, de modo que no se puede confiar en los resultados. Los modelos aprobados deben tener valores p grandes para esta prueba de diagnóstico. El valor p predeterminado mínimo es 0,1. Solo los modelos que devuelven valores p mayores que este mínimo se considerarán aprobados. Si tiene problemas al buscar modelos especificados correctamente debido a esta prueba de diagnóstico, y decide relajar los criterios de búsqueda, puede introducir un mínimo más pequeños como 0,05. | Double |
Ejemplo de código
La siguiente secuencia de comandos de la ventana de Python muestra cómo utilizar la herramienta ExploratoryRegression.
import arcpy, os arcpy.env.workspace = r"C:\ER" arcpy.ExploratoryRegression_stats("911CallsER.shp", "Calls", "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \ ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \ PopFY;JobsFY;LowEducFY", "BG_911Calls.swm", "BG_911Calls.txt", "", "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1")
La siguiente secuencia de comandos de Python independiente muestra cómo utilizar la herramienta ExploratoryRegression.
# Exploratory Regression of 911 calls in a metropolitan area # using the Exploratory Regression Tool # Import system modules import arcpy, os # Set geoprocessor object property to overwrite existing output, by default arcpy.gp.overwriteOutput = True try: # Set the current workspace (to avoid having to specify the full path to # the feature classes each time) arcpy.env.workspace = r"C:\ER" # Join the 911 Call Point feature class to the Block Group Polygon feature class # Process: Spatial Join fieldMappings = arcpy.FieldMappings() fieldMappings.addTable("BlockGroups.shp") fieldMappings.addTable("911Calls.shp") sj = arcpy.SpatialJoin_analysis("BlockGroups.shp", "911Calls.shp", "BG_911Calls.shp", "JOIN_ONE_TO_ONE", "KEEP_ALL", fieldMappings, "COMPLETELY_CONTAINS", "", "") # Delete extra fieldsto clean up the data # Process: Delete Field arcpy.DeleteField_management("BG_911Calls.shp", "OBJECTID;INC_NO;DATE_;MONTH_;STIME; \ SD_T;DISP_REC;NFPA_TYP;CALL_TYPE;RESP_COD;NFPA_SF; \ SIT_FND;FMZ_Q;FMZ;RD;JURIS;COMPANY;COMP_COD;RESP_YN; \ DISP_DT;DAY_;D1_N2;RESP_DT;ARR_DT;TURNOUT;TRAVEL; \ RESP_INT;ADDRESS_ID;CITY;CO;AV_STATUS;AV_SCORE; \ AV_SIDE;Season;DayNight") # Create Spatial Weights Matrix for Calculations # Process: Generate Spatial Weights Matrix swm = arcpy.GenerateSpatialWeightsMatrix_stats("BG_911Calls.shp", "TARGET_FID", "BG_911Calls.swm", "CONTIGUITY_EDGES_CORNERS", "EUCLIDEAN", "1", "", "", "ROW_STANDARDIZATION", "", "", "", "") # Exploratory Regression Analysis for 911 Calls # Process: Exploratory Regression er = arcpy.ExploratoryRegression_stats("BG_911Calls.shp", "Calls", "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \ ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \ PopFY;JobsFY;LowEducFY", "BG_911Calls.swm", "BG_911Calls.txt", "", "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1") except: # If an error occurred when running the tool, print out the error message. print arcpy.GetMessages()