ArcGIS Help 10.1 - Regresión exploratoria (Estadística espacial)

Resumen

La herramienta Regresión exploratoria evalúa todos posibles combinaciones de posibles variables explicativas de entrada, buscando modelos de OLS que expliquen mejor la variable dependiente en el contexto del criterio especificado por el usuario.

Puede acceder a los resultados de esta herramienta (incluido el archivo de informe opcional) desde la ventana Resultados. Si deshabilita el procesamiento en segundo plano, los resultados también se escriben en el cuadro de diálogo Progreso.

Más información sobre cómo funciona la Regresión exploratoria

Ilustración

Given a set of candidate explanatory variables, finds properly specified OLS models.

Uso

La principal salida para esta herramienta es un archivo de informe que se escribe en la ventana Resultados. Hacer clic en la entrada Mensajes de la ventana Resultados y seleccionar Ver mostrará el informe del resumen Regresión exploratoria en un cuadro de diálogo Mensaje.
Esta herramienta creará opcionalmente un informe en archivo de texto que resume los resultados. Este archivo de informe se agregará a la tabla de contenido (TOC) y se puede visualizar en ArcMap al hacer clic con el botón derecho del mouse sobre él y seleccionar Abrir.
Esta herramienta también produce una tabla opcional de todos los modelos que cumplen con su máximo valor límite de valor p de coeficiente y criterio de valor Factor de inflación de la varianza (VIF). Una explicación completa de los elementos de informe y de tabla se proporcionan en Interpretar los resultados de Regresión exploratoria.
Esta herramienta utiliza Mínimos cuadrados ordinarios (OLS) y Autocorrelación espacial (I de Moran global). El archivo matrizde ponderaciones espaciales opcional se utiliza con la herramienta Autocorrelación espacial (I de Moran global) para evaluar los residuales de modelo; no es utilizada por la herramienta OLS para nada.
Esta herramienta intenta cada combinación de Posibles variables explicativas introducidas, buscando un modelo OLS especificado adecuadamente. Solo cuando se busca un modelo que cumple con criterios de umbral para Mínimo cuadrado Adj R aceptable, Valor límite máximo valor p de coeficiente, Valor límite máximo valor VIF y valor p Jarque-Bera mínimo aceptable se ejecute la herramienta Autocorrelación espacial (I de Moran global) en los residuales del modelo para ver si las predicciones excesivas/escasas están agrupadas o no. Para proporcionar al menos alguna información sobre el clustering residual en el caso donde ninguno de los modelos aprueban todos estos criterios, la prueba Autocorrelación espacial (I de Moran global) también se aplica a los residuales para los tres modelos que tienen los mayores valores de R² ajustada y los tres modelos que tienen los mayores valores p Jarque-Bera.
Especialmente cuando hay una fuerte estructura espacial en su variable dependiente, deseará intentar presentar tantas posibles variables explicativas espaciales como pueda. Algunos ejemplos de variables espaciales serían la distancia a las carreteras principales, la accesibilidad para las oportunidades de trabajo, número de oportunidades comerciales locales, medidas de conectividad o densidades. Hasta encontrar las variables explicativas que captura la estructura espacial en su variable dependiente, los residuales de modelo probablemente no pasarán la prueba de autocorrelación espacial. Clustering significativo en los residuales de regresión, según lo determina la herramienta Autocorrelación espacial (I de Moran global), indica la especificación incorrecta del modelo. Las estrategias para hacer frente a la mala especificación se describen en ¿Qué es lo que no le dicen sobre el análisis de regresión?
Debido a que la Autocorrelación espacial (I de Moran global) no se ejecuta para todos los modelos a prueba (consulte la sugerencia de uso anterior), la tabla tendrá datos faltantes para el campo SA (Autocorrelación espacial). Debido a que los archivos .dbf no almacenan valores nulos, estos aparecen como números muy, muy pequeños (negativos) (algo como -1,797693e+308). Para las tablas de geodatabase, estos valores faltantes aparecen como valores nulos. Un valor faltante que indica que los valores residuales para el modelo asociado no han sido probados para la autocorrelación espacial porque el modelo no pasó todos los demás criterios de búsqueda de modelo.
El archivo matriz de ponderaciones espaciales predeterminado se utiliza para ejecutar la herramienta Autocorrelación espacial (I de Moran global) se basa en una conceptualización de relaciones espaciales de 8 vecindades más próximas. Este valor predeterminado se seleccionó principalmente porque se ejecuta con bastante rapidez. Para definir las relaciones de vecindad de forma diferente; sin embargo, simplemente puede crear su propio archivo matrizde ponderaciones espaciales utilizando la herramienta Generar archivo matrizde ponderaciones espacialesy, a continuación, especifique el nombre de archivo de entrada para el parámetro Archivo de matriz de ponderaciones espaciales. Distancia inversa, Contigüidad de polígono o de Vecinos más próximos K, son todas las Conceptualizaciones de relaciones espaciales para las pruebas de los residuales de regresión.
Nota:
El archivo matrizde ponderaciones espaciales solo se utiliza para probar los residuales de modelo para la estructura espacial. Cuando un modelo se especifica correctamente, los residuales son espacialmente aleatorios (los residuales grandes se entremezclan con residuales pequeños; los grandes residuales no se agrupan juntos espacialmente).

Sintaxis

ExploratoryRegression_stats (Input_Features, Dependent_Variable, Candidate_Explanatory_Variables, {Weights_Matrix_File}, {Output_Report_File}, {Output_Results_Table}, {Maximum_Number_of_Explanatory_Variables}, {Minimum_Number_of_Explanatory_Variables}, {Minimum_Acceptable_Adj_R_Squared}, {Maximum_Coefficient_p_value_Cutoff}, {Maximum_VIF_Value_Cutoff}, {Minimum_Acceptable_Jarque_Bera_p_value}, {Minimum_Acceptable_Spatial_Autocorrelation_p_value})

Parámetro	Explicación	Tipo de datos
Input_Features	La clase de entidad o capa de entidad que contiene las posibles variables dependientes y explicativas a analizar.	Feature Layer
Dependent_Variable	El campo numérico que contiene los valores observados desea modelar utilizando OLS.	Field
Candidate_Explanatory_Variables [Candidate_Explanatory_Variables,...]	Una lista de campos para tratar como las variables explicativas del modelo OLS.	Field
Weights_Matrix_File (Opcional)	Un archivo que contiene las ponderaciones espaciales que definen las relaciones espaciales entre las entidades de entrada. Este archivo se utiliza para evaluar la autocorrelación espacial de los residuales de regresión. Puede utilizar la herramienta Generar archivo matrizde ponderaciones espaciales para crear esto. Cuando usted no proporcionar un archivo matrizde ponderaciones espaciales, los residuales son evaluados por la autocorrelación espacial con base a cada entidad de 8 vecindades más próximas. Nota: El archivo matrizde ponderaciones espaciales solo se utiliza para analizar la estructura espacial de los residuales de modelo; no se utiliza para construir o para calibrar ninguno de los modelos de OLS.	File
Output_Report_File (Opcional)	El archivo de informe contiene los resultados de la herramienta, incluidos los detalles sobre todos los modelos encontrados que aprobaron todos los criterios de búsqueda que introdujo. Este archivo de salida también contiene herramientas de diagnóstico para ayudarle a arreglar los problemas de regresión comunes en el caso de que no encuentre ningún modelo que apruebe.	File
Output_Results_Table (Opcional)	La tabla de salida opcional creada que contiene las variables explicativas y los diagnósticos para todos los modelos en el valor límite del valor VIF y el coeficiente de valor p.	Table
Maximum_Number_of_Explanatory_Variables (Opcional)	Se evaluarán todos los modelos con variables explicativas hasta el valor introducido aquí. Si, por ejemplo, el Minimum_Number_of_Explanatory_Variables es 2 y el Maximum_Number_of Explanatory_Variables es 3, la herramienta Regresión exploratoria probará todos los modelos con cada combinación de dos variables explicativas y todos los modelos con cada combinación de tres variables explicativas.	Long
Minimum_Number_of_Explanatory_Variables (Opcional)	Este valor representa el número mínimo de variables explicativas para modelos evaluados. Si, por ejemplo, el Minimum_Number_of_Explanatory_Variables es 2 y el Maximum_Number_of_Explanatory_Variables es 3, la herramienta Regresión exploratoria probará todos los modelos con cada combinación de dos variables explicativas, y todos los modelos con cada combinación de tres variables explicativas.	Long
Minimum_Acceptable_Adj_R_Squared (Opcional)	Este es el valor R cuadrado ajustado más bajo que se considera un modelo de aprobación. Si un modelo aprueba todos los demás criterios de búsqueda, pero tiene un valor R cuadrado ajustado menor que el valor introducido aquí, no aparecerá como un modelo aprobado el archivo de informe de salida. Los valores válidos para este parámetro oscilan entre 0,0 a 1,0. El valor predeterminado es 0,5, indicando que los modelos aprobados explicarán al menos 50 por ciento de la variación en la variable dependiente.	Double
Maximum_Coefficient_p_value_Cutoff (Opcional)	Para cada modelo evaluado, OLS calcula los valores p de los coeficientes de la variable explicativa. El valor p del valor límite que ingresó aquí representa el nivel de confianza que necesita para todos los coeficientes en el modelo para estudiar el modelo de aprobación. Los valores p pequeños reflejan un mayor nivel de confianza. Los valores válidos para este parámetro van desde 1,0 a 0,0, pero lo más probable es que sean 0,1, 0,05, 0,01, 0,001, y así sucesivamente. El valor predeterminado es 0,05, que indica que los modelos aprobados solo contiene variables explicativas cuyos coeficientes están estadísticamente en el nivel de confianza del 95 por ciento (valores p, menores que 0,05). Para relajar este valor predeterminado debe introducir un valor límite del valor p mayor, como 0,1. Si está recibiendo muchos modelos aprobados, es probable que desee hacer este criterio de búsqueda más estricto al disminuir el valor límite del valor p predeterminado de 0,05 a 0,01 o menos.	Double
Maximum_VIF_Value_Cutoff (Opcional)	Este valor refleja cuánta redundancia (multicolinealidad) entre las variables explicativas del modelo se va a tolerar. Cuando el VIF (Factor de inflación de la varianza) es mayor que la multicolinealidad sobre 7,5, puede hacer un modelo inestable; por consiguiente, 7,5 es el valor predeterminado. Si desea que sus modelos aprobados tengan menos redundancia, debe ingresar un valor menor, como 5,0, para este parámetro.	Double
Minimum_Acceptable_Jarque_Bera_p_value (Opcional)	El valor p devuelto por la prueba de diagnóstico Jarque-Bera indica si los residuales del modelo se distribuyen normalmente. Si el valor p es estadísticamente significativo (pequeño), los residuales del modelo no son normales y el modelo es influenciado. Los modelos aprobados deben tener valores p Jarque-Bera grandes. El valor p aceptable mínimo predeterminado es 0,1. Solo los modelos que devuelven valores p mayores que este mínimo se considerarán aprobados. Si tiene problemas para encontrar modelos aprobados no influenciados, y deciden relajar este criterio, puede introducir un valor p mínimo más pequeño, como 0,05.	Double
Minimum_Acceptable_Spatial_Autocorrelation_p_value (Opcional)	Para los modelos que aprueban todos los demás criterios de búsqueda, la herramienta Regresión exploratoria, verificará los residuales de modelo para el clustering espacial utilizando I de Moran global. Cuando el valor p para esta prueba de diagnóstico es estadísticamente significativo (pequeño), esto indica que al modelo probablemente le faltan variables explicativas clave (no dice toda la historia). Por desgracia, si tiene la autocorrelación espacial de los residuales de regresión, el modelo está mal especificado, de modo que no se puede confiar en los resultados. Los modelos aprobados deben tener valores p grandes para esta prueba de diagnóstico. El valor p predeterminado mínimo es 0,1. Solo los modelos que devuelven valores p mayores que este mínimo se considerarán aprobados. Si tiene problemas al buscar modelos especificados correctamente debido a esta prueba de diagnóstico, y decide relajar los criterios de búsqueda, puede introducir un mínimo más pequeños como 0,05.	Double

Ejemplo de código

Ejemplo 1 ExploratoryRegression (ventana de Python)

La siguiente secuencia de comandos de la ventana de Python muestra cómo utilizar la herramienta ExploratoryRegression.

import arcpy, os arcpy.env.workspace = r"C:\ER" arcpy.ExploratoryRegression_stats("911CallsER.shp",                                  "Calls",                                  "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \                                 ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \                                 PopFY;JobsFY;LowEducFY",                                 "BG_911Calls.swm", "BG_911Calls.txt", "",                                 "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1")

Ejemplo 2 ExploratoryRegression (secuencia de comandos de Python independiente)

La siguiente secuencia de comandos de Python independiente muestra cómo utilizar la herramienta ExploratoryRegression.

# Exploratory Regression of 911 calls in a metropolitan area # using the Exploratory Regression Tool  # Import system modules import arcpy, os  # Set geoprocessor object property to overwrite existing output, by default arcpy.gp.overwriteOutput = True  try:     # Set the current workspace (to avoid having to specify the full path to     # the feature classes each time)     arcpy.env.workspace = r"C:\ER"      # Join the 911 Call Point feature class to the Block Group Polygon feature class     # Process: Spatial Join     fieldMappings = arcpy.FieldMappings()     fieldMappings.addTable("BlockGroups.shp")     fieldMappings.addTable("911Calls.shp")      sj = arcpy.SpatialJoin_analysis("BlockGroups.shp", "911Calls.shp", "BG_911Calls.shp",                                "JOIN_ONE_TO_ONE",                                "KEEP_ALL",                                fieldMappings,                                "COMPLETELY_CONTAINS", "", "")      # Delete extra fieldsto clean up the data     # Process: Delete Field      arcpy.DeleteField_management("BG_911Calls.shp", "OBJECTID;INC_NO;DATE_;MONTH_;STIME; \                                  SD_T;DISP_REC;NFPA_TYP;CALL_TYPE;RESP_COD;NFPA_SF; \                                  SIT_FND;FMZ_Q;FMZ;RD;JURIS;COMPANY;COMP_COD;RESP_YN; \                                  DISP_DT;DAY_;D1_N2;RESP_DT;ARR_DT;TURNOUT;TRAVEL; \                                  RESP_INT;ADDRESS_ID;CITY;CO;AV_STATUS;AV_SCORE; \                                  AV_SIDE;Season;DayNight")      # Create Spatial Weights Matrix for Calculations     # Process: Generate Spatial Weights Matrix     swm = arcpy.GenerateSpatialWeightsMatrix_stats("BG_911Calls.shp", "TARGET_FID", "BG_911Calls.swm",                                              "CONTIGUITY_EDGES_CORNERS",                                              "EUCLIDEAN", "1", "", "", "ROW_STANDARDIZATION", "", "", "", "")      # Exploratory Regression Analysis for 911 Calls     # Process: Exploratory Regression     er = arcpy.ExploratoryRegression_stats("BG_911Calls.shp",                                       "Calls",                                       "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \                                 ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \                                 PopFY;JobsFY;LowEducFY",                                       "BG_911Calls.swm", "BG_911Calls.txt", "",                                       "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1")   except:     # If an error occurred when running the tool, print out the error message.     print arcpy.GetMessages()

Entornos

Espacio de trabajo actual, Espacio de trabajo temporal, Sistema de coordenadas de salida, Nombres de campos calificados, La salida tiene valores M, La salida tiene valores Z, Valor Z de salida predeterminado

Temas relacionados

Vista general del conjunto de herramientas Modelado de relaciones espaciales

Cómo funciona la regresión exploratoria

Conceptos básicos del análisis de regresión

Lo que no le cuentan sobre el análisis de regresión

Interpretar los resultados de regresión exploratoria

Interpretar los resultados de OLS

Regresión ponderada geográficamente (GWR)

Autocorrelación espacial (I de Moran global)

¿Qué es una puntuación z? ¿Qué es un valor P?

Cómo funciona la regresión OLS

9/11/2013