Regresión exploratoria (Estadística espacial)

Resumen

La herramienta Regresión exploratoria evalúa todos posibles combinaciones de posibles variables explicativas de entrada, buscando modelos de OLS que expliquen mejor la variable dependiente en el contexto del criterio especificado por el usuario.

Puede acceder a los resultados de esta herramienta (incluido el archivo de informe opcional) desde la ventana Resultados. Si deshabilita el procesamiento en segundo plano, los resultados también se escriben en el cuadro de diálogo Progreso.

Más información sobre cómo funciona la Regresión exploratoria

Ilustración

Exploratory Regression Graphic
Given a set of candidate explanatory variables, finds properly specified OLS models.

Uso

Sintaxis

ExploratoryRegression_stats (Input_Features, Dependent_Variable, Candidate_Explanatory_Variables, {Weights_Matrix_File}, {Output_Report_File}, {Output_Results_Table}, {Maximum_Number_of_Explanatory_Variables}, {Minimum_Number_of_Explanatory_Variables}, {Minimum_Acceptable_Adj_R_Squared}, {Maximum_Coefficient_p_value_Cutoff}, {Maximum_VIF_Value_Cutoff}, {Minimum_Acceptable_Jarque_Bera_p_value}, {Minimum_Acceptable_Spatial_Autocorrelation_p_value})
ParámetroExplicaciónTipo de datos
Input_Features

La clase de entidad o capa de entidad que contiene las posibles variables dependientes y explicativas a analizar.

Feature Layer
Dependent_Variable

El campo numérico que contiene los valores observados desea modelar utilizando OLS.

Field
Candidate_Explanatory_Variables
[Candidate_Explanatory_Variables,...]

Una lista de campos para tratar como las variables explicativas del modelo OLS.

Field
Weights_Matrix_File
(Opcional)

Un archivo que contiene las ponderaciones espaciales que definen las relaciones espaciales entre las entidades de entrada. Este archivo se utiliza para evaluar la autocorrelación espacial de los residuales de regresión. Puede utilizar la herramienta Generar archivo matrizde ponderaciones espaciales para crear esto. Cuando usted no proporcionar un archivo matrizde ponderaciones espaciales, los residuales son evaluados por la autocorrelación espacial con base a cada entidad de 8 vecindades más próximas.

Nota: El archivo matrizde ponderaciones espaciales solo se utiliza para analizar la estructura espacial de los residuales de modelo; no se utiliza para construir o para calibrar ninguno de los modelos de OLS.

File
Output_Report_File
(Opcional)

El archivo de informe contiene los resultados de la herramienta, incluidos los detalles sobre todos los modelos encontrados que aprobaron todos los criterios de búsqueda que introdujo. Este archivo de salida también contiene herramientas de diagnóstico para ayudarle a arreglar los problemas de regresión comunes en el caso de que no encuentre ningún modelo que apruebe.

File
Output_Results_Table
(Opcional)

La tabla de salida opcional creada que contiene las variables explicativas y los diagnósticos para todos los modelos en el valor límite del valor VIF y el coeficiente de valor p.

Table
Maximum_Number_of_Explanatory_Variables
(Opcional)

Se evaluarán todos los modelos con variables explicativas hasta el valor introducido aquí. Si, por ejemplo, el Minimum_Number_of_Explanatory_Variables es 2 y el Maximum_Number_of Explanatory_Variables es 3, la herramienta Regresión exploratoria probará todos los modelos con cada combinación de dos variables explicativas y todos los modelos con cada combinación de tres variables explicativas.

Long
Minimum_Number_of_Explanatory_Variables
(Opcional)

Este valor representa el número mínimo de variables explicativas para modelos evaluados. Si, por ejemplo, el Minimum_Number_of_Explanatory_Variables es 2 y el Maximum_Number_of_Explanatory_Variables es 3, la herramienta Regresión exploratoria probará todos los modelos con cada combinación de dos variables explicativas, y todos los modelos con cada combinación de tres variables explicativas.

Long
Minimum_Acceptable_Adj_R_Squared
(Opcional)

Este es el valor R cuadrado ajustado más bajo que se considera un modelo de aprobación. Si un modelo aprueba todos los demás criterios de búsqueda, pero tiene un valor R cuadrado ajustado menor que el valor introducido aquí, no aparecerá como un modelo aprobado el archivo de informe de salida. Los valores válidos para este parámetro oscilan entre 0,0 a 1,0. El valor predeterminado es 0,5, indicando que los modelos aprobados explicarán al menos 50 por ciento de la variación en la variable dependiente.

Double
Maximum_Coefficient_p_value_Cutoff
(Opcional)

Para cada modelo evaluado, OLS calcula los valores p de los coeficientes de la variable explicativa. El valor p del valor límite que ingresó aquí representa el nivel de confianza que necesita para todos los coeficientes en el modelo para estudiar el modelo de aprobación. Los valores p pequeños reflejan un mayor nivel de confianza. Los valores válidos para este parámetro van desde 1,0 a 0,0, pero lo más probable es que sean 0,1, 0,05, 0,01, 0,001, y así sucesivamente. El valor predeterminado es 0,05, que indica que los modelos aprobados solo contiene variables explicativas cuyos coeficientes están estadísticamente en el nivel de confianza del 95 por ciento (valores p, menores que 0,05). Para relajar este valor predeterminado debe introducir un valor límite del valor p mayor, como 0,1. Si está recibiendo muchos modelos aprobados, es probable que desee hacer este criterio de búsqueda más estricto al disminuir el valor límite del valor p predeterminado de 0,05 a 0,01 o menos.

Double
Maximum_VIF_Value_Cutoff
(Opcional)

Este valor refleja cuánta redundancia (multicolinealidad) entre las variables explicativas del modelo se va a tolerar. Cuando el VIF (Factor de inflación de la varianza) es mayor que la multicolinealidad sobre 7,5, puede hacer un modelo inestable; por consiguiente, 7,5 es el valor predeterminado. Si desea que sus modelos aprobados tengan menos redundancia, debe ingresar un valor menor, como 5,0, para este parámetro.

Double
Minimum_Acceptable_Jarque_Bera_p_value
(Opcional)

El valor p devuelto por la prueba de diagnóstico Jarque-Bera indica si los residuales del modelo se distribuyen normalmente. Si el valor p es estadísticamente significativo (pequeño), los residuales del modelo no son normales y el modelo es influenciado. Los modelos aprobados deben tener valores p Jarque-Bera grandes. El valor p aceptable mínimo predeterminado es 0,1. Solo los modelos que devuelven valores p mayores que este mínimo se considerarán aprobados. Si tiene problemas para encontrar modelos aprobados no influenciados, y deciden relajar este criterio, puede introducir un valor p mínimo más pequeño, como 0,05.

Double
Minimum_Acceptable_Spatial_Autocorrelation_p_value
(Opcional)

Para los modelos que aprueban todos los demás criterios de búsqueda, la herramienta Regresión exploratoria, verificará los residuales de modelo para el clustering espacial utilizando I de Moran global. Cuando el valor p para esta prueba de diagnóstico es estadísticamente significativo (pequeño), esto indica que al modelo probablemente le faltan variables explicativas clave (no dice toda la historia). Por desgracia, si tiene la autocorrelación espacial de los residuales de regresión, el modelo está mal especificado, de modo que no se puede confiar en los resultados. Los modelos aprobados deben tener valores p grandes para esta prueba de diagnóstico. El valor p predeterminado mínimo es 0,1. Solo los modelos que devuelven valores p mayores que este mínimo se considerarán aprobados. Si tiene problemas al buscar modelos especificados correctamente debido a esta prueba de diagnóstico, y decide relajar los criterios de búsqueda, puede introducir un mínimo más pequeños como 0,05.

Double

Ejemplo de código

Ejemplo 1 ExploratoryRegression (ventana de Python)

La siguiente secuencia de comandos de la ventana de Python muestra cómo utilizar la herramienta ExploratoryRegression.

import arcpy, os arcpy.env.workspace = r"C:\ER" arcpy.ExploratoryRegression_stats("911CallsER.shp",                                  "Calls",                                  "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \                                 ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \                                 PopFY;JobsFY;LowEducFY",                                 "BG_911Calls.swm", "BG_911Calls.txt", "",                                 "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1")
Ejemplo 2 ExploratoryRegression (secuencia de comandos de Python independiente)

La siguiente secuencia de comandos de Python independiente muestra cómo utilizar la herramienta ExploratoryRegression.

# Exploratory Regression of 911 calls in a metropolitan area # using the Exploratory Regression Tool  # Import system modules import arcpy, os  # Set geoprocessor object property to overwrite existing output, by default arcpy.gp.overwriteOutput = True  try:     # Set the current workspace (to avoid having to specify the full path to     # the feature classes each time)     arcpy.env.workspace = r"C:\ER"      # Join the 911 Call Point feature class to the Block Group Polygon feature class     # Process: Spatial Join     fieldMappings = arcpy.FieldMappings()     fieldMappings.addTable("BlockGroups.shp")     fieldMappings.addTable("911Calls.shp")      sj = arcpy.SpatialJoin_analysis("BlockGroups.shp", "911Calls.shp", "BG_911Calls.shp",                                "JOIN_ONE_TO_ONE",                                "KEEP_ALL",                                fieldMappings,                                "COMPLETELY_CONTAINS", "", "")      # Delete extra fieldsto clean up the data     # Process: Delete Field      arcpy.DeleteField_management("BG_911Calls.shp", "OBJECTID;INC_NO;DATE_;MONTH_;STIME; \                                  SD_T;DISP_REC;NFPA_TYP;CALL_TYPE;RESP_COD;NFPA_SF; \                                  SIT_FND;FMZ_Q;FMZ;RD;JURIS;COMPANY;COMP_COD;RESP_YN; \                                  DISP_DT;DAY_;D1_N2;RESP_DT;ARR_DT;TURNOUT;TRAVEL; \                                  RESP_INT;ADDRESS_ID;CITY;CO;AV_STATUS;AV_SCORE; \                                  AV_SIDE;Season;DayNight")      # Create Spatial Weights Matrix for Calculations     # Process: Generate Spatial Weights Matrix     swm = arcpy.GenerateSpatialWeightsMatrix_stats("BG_911Calls.shp", "TARGET_FID", "BG_911Calls.swm",                                              "CONTIGUITY_EDGES_CORNERS",                                              "EUCLIDEAN", "1", "", "", "ROW_STANDARDIZATION", "", "", "", "")      # Exploratory Regression Analysis for 911 Calls     # Process: Exploratory Regression     er = arcpy.ExploratoryRegression_stats("BG_911Calls.shp",                                       "Calls",                                       "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \                                 ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \                                 PopFY;JobsFY;LowEducFY",                                       "BG_911Calls.swm", "BG_911Calls.txt", "",                                       "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1")   except:     # If an error occurred when running the tool, print out the error message.     print arcpy.GetMessages()

Entornos

Temas relacionados

9/11/2013