Principes de base de l'analyse de régression
La boîte à outils Statistiques spatiales fournit des outils efficaces pour quantifier les structures spatiales. A l'aide de l'outil Hot Spot Analysis par exemple, vous pouvez poser des questions telles que les suivantes :
- Est-ce qu'il existe des lieux aux Etats-Unis où les gens meurent jeunes de manière récurrente ?
- Où se concentrent les infractions, les appels d'urgence (voir le graphique ci-dessous), ou les incendies ?
- Où trouver une proportion d'accidents de la circulation supérieure à la normale dans une ville ?
Toutes les questions ci-dessus posent la question "où". La prochaine question logique pour les types d'analyse ci-dessus implique "pourquoi".
- Pourquoi existe-t-il des lieux aux Etats-Unis où les gens meurent jeunes de manière récurrente ? Quelle peut en être la cause ?
- Est-ce que nous pouvons modéliser les caractéristiques des endroits qui présentent beaucoup d'infractions, d'appels d'urgence, ou d'incendies pour aider à réduire ces incidents ?
- Quels sont les facteurs qui contribuent à un nombre d'accidents de la circulation supérieur à la normale ? Est-ce qu'il existe des implications de stratégie ou des actions de prévention permettant de réduire les accidents de la circulation dans l'ensemble de la ville et/ou dans les zones présentant des taux d'accidents particulièrement élevés ?
Les outils du jeu d'outils Modélisation de relations spatiales vous aident à répondre à ce deuxième jeu de questions sur les causes. Ces outils comprennent la régression Moindres carrés ordinaires et la Régression pondérée géographiquement.
Relations spatiales
L'analyse de régression vous permet de modéliser, d'examiner et d'explorer des relations spatiales et peut aider à expliquer les facteurs à l'origine des structures spatiales observées. Vous pouvez souhaiter comprendre pourquoi les gens meurent jeunes de manière récurrente dans certaines régions du pays ou quels facteurs contribuent à des taux de diabète supérieurs à la normale. En modélisant des relations spatiales, toutefois, les analyses de régression peuvent également être utilisées pour la prédiction. La modélisation des facteurs qui contribuent aux taux d'études supérieures, par exemple, vous permet de faire des prédictions concernant les futures compétences et ressources de main-d'œuvre. Vous pouvez également utiliser la régression pour prévoir les précipitations ou la qualité de l'air lorsque l'interpolation est insuffisante en raison d'une pénurie de stations de surveillance (par exemple, les indicateurs de précipitation font souvent défaut le long des crêtes de montagne et dans les vallées).
La méthode des moindres carrés ordinaires est la meilleure technique de régression connue. Il s'agit également du point de départ proprement dit pour toutes les analyses de régression spatiales. Elle fournit un modèle global de la variable ou du processus que vous essayez de comprendre ou de prévoir (mort précoce/précipitations) ; elle crée une seule équation de régression pour représenter ce processus. La régression pondérée géographiquement est une technique de régression spatiale parmi d'autres, utilisée de manière grandissante dans la géographie et d'autres disciplines. La régression pondérée géographiquement fournit un modèle local de la variable ou du processus que vous essayez de comprendre/prévoir en ajustant une équation de régression à chaque entité du jeu de données. En cas d'utilisation correcte, ces méthodes fournissent des statistiques puissantes et fiables pour l'examen et l'estimation de relations linéaires.
Les relations linéaires sont positives ou négatives. Si vous déterminez que le nombre d'événements de sauvetage augmente avec les températures journalières, la relation est dite positive ; il existe dans ce cas une corrélation positive. Une autre méthode pour exprimer cette relation positive consiste à dire que les événements de sauvetage diminuent avec les températures journalières. Inversement, si vous déterminez que le nombre d'infractions diminue lorsque le nombre d'agents de police en patrouille dans une zone augmente, la relation est dite négative. Vous pouvez également exprimer cette relation négative en déclarant que le nombre d'infractions augmente lorsque le nombre d'agents en patrouille diminue. Le graphique ci-dessous représente à la fois des relations positives et négatives, ainsi que le cas où il n'existe aucune relation entre deux variables :
Les analyses de corrélation et leurs graphiques associés représentés ci-dessus testent l'intensité de la relation entre deux variables. Les analyses de régression en revanche effectuent une affirmation plus forte : elles essaient de montrer la mesure dans laquelle une ou plusieurs variables influencent potentiellement un changement positif ou négatif dans une autre variable.
Applications d'analyse de régression
Les analyses de régression peuvent être utilisées pour une large gamme d'applications :
- Modélisation du taux de rétention des lycées pour mieux comprendre les facteurs qui aident à retenir les enfants à l'école.
- Modélisation des accidents de la circulation en tant que fonction de la vitesse, des conditions routières, de la météo, etc. pour informer les stratégies destinées à la réduction du nombre d'accidents.
- Modélisation de la perte de propriété liée à l'incendie en tant que fonction de variables telles que le degré de participation des pompiers, le temps de réaction ou les valeurs de propriété. Si vous déterminez que le temps de réaction est le facteur clé, vous devez éventuellement créer plus de casernes de pompiers. Si vous déterminez que la participation est le facteur clé, vous devez éventuellement améliorer l'équipement et le nombre d'agents envoyés sur place.
Il existe trois raisons principales pour utiliser l'analyse de régression :
- Pour modéliser un phénomène afin de mieux le comprendre et éventuellement utiliser cette compréhension pour modifier la stratégie ou prendre des décisions concernant les actions appropriées à effectuer. L'objectif de base consiste à mesurer avec quelle ampleur les variations communes d'une ou plusieurs variables affectent des modifications dans une autre. Par exemple : comprendre les caractéristiques clés de l'habitat d'une espèce d'oiseau menacée particulière (peut-être les précipitations, les sources de nourriture, la végétation, les prédateurs) pour aider à la conception d'une législation visant à protéger cette espèce.
- Pour modéliser un phénomène afin de prévoir des valeurs à d'autres endroits ou d'autres moments. L'objectif de base est de créer un modèle de prédiction à la fois cohérent et précis. Par exemple : à partir des projections de croissance de la population et des conditions météorologiques typiques, quelle sera la demande en électricité l'année prochaine ?
- Vous pouvez également utiliser l'analyse de régression pour explorer des hypothèses. Supposons que vous modélisez les infractions résidentielles afin de mieux les comprendre et avec l'espoir de mettre en œuvre une stratégie de prévention. Lorsque vous commencez votre analyse, vous avez probablement des questions ou des hypothèses que vous souhaitez examiner :
- La "théorie de la fenêtre brisée" indique que les détériorations de la propriété publique (graffitis, structures endommagées et ainsi de suite) invitent à d'autres infractions. Est-ce qu'il existe une relation positive entre les incidents de vandalisme et le cambriolage résidentiel ?
- Est-ce qu'il existe une relation entre l'utilisation de drogues illégales et le cambriolage (les drogués volent-ils pour subvenir à leur dépendance) ?
- Les cambrioleurs effectuent-ils des crimes contre les personnes ? Est-ce qu'il peut y avoir plus d'incidents dans les voisinages résidentiels avec des proportions supérieures de personnes âgées ou de foyers conduits par des femmes ?
- Les personnes sont-elles exposées à un plus grand risque de cambriolage si elles habitent dans un voisinage riche ou pauvre ?
Termes et concepts de l'analyse de régression
Il est impossible de discuter de l'analyse de régression sans se familiariser au préalable avec certains termes et principes de base spécifiques aux statistiques de régression :
Equation de régression : Il s'agit de la formule mathématique appliquée aux variables explicatives pour prévoir au mieux la variable dépendante que vous essayez de modéliser. Malheureusement pour les spécialistes des géosciences qui considèrent x et y comme coordonnées, dans les équations de régression la notation de la variable dépendante est toujours y et celle des variables indépendantes ou explicatives est toujours X. Chaque variable indépendante est associée à un coefficient de régression qui décrit la force et le signe de la relation de cette variable par rapport à la variable dépendante. Une équation de régression peut ressembler aux éléments suivants (y est la variable dépendante, les X sont les variables explicatives, et les β sont des coefficients de régression ; chacun de ces composants de l'équation de régression est expliqué dans la suite de cette rubrique) :
- Variable dépendante (y) : Il s'agit de la variable qui représente le processus que vous essayez de prévoir ou comprendre (cambriolage résidentiel, insolvabilité, précipitations). Dans l'équation de régression, elle figure à gauche du signe d'égalité. Bien que vous puissiez utiliser la régression pour prévoir la variable dépendante, vous commencez toujours par utiliser un ensemble de valeurs de y connues pour créer (ou calibrer) le modèle de régression. Les valeurs de y connues sont souvent nommées valeurs observées.
- Variables indépendantes/explicatives (X) : Ce sont les variables utilisées pour modéliser ou prévoir les valeurs de variable dépendante. Dans l'équation de régression, elles figurent à droite du signe d'égalité et sont souvent appelées variables explicatives. La variable dépendante est une fonction des variables explicatives. Par exemple, pour la prédiction d'achats annuels pour un point de vente proposé, vous pouvez inclure dans votre modèle des variables explicatives représentant le nombre de clients potentiels, la distance par rapport à la concurrence, la visibilité du point de vente et des modèles d'achats locaux.
- Coefficients de régression (β) : Les coefficients sont calculés par l'outil de régression. Il s'agit de valeurs, une pour chaque variable explicative, qui représentent la force et le type de relation que la variable explicative présente avec la variable dépendante. Supposons que vous modélisez la fréquence des incendies en tant que fonction du rayonnement solaire, de la végétation, des précipitations et de l'exposition. Vous pouvez attendre une relation positive entre la fréquence des incendies et le rayonnement solaire (autrement dit, plus il y a de soleil, plus les incendies sont fréquents). Lorsque la relation est positive, le signe du coefficient associé est également positif. Vous pouvez attendre une relation négative entre la fréquence des incendies et les précipitations (autrement dit, les lieux qui reçoivent plus de pluie sont moins touchés par les incendies). Les coefficients correspondant à des relations négatives sont négatifs. Lorsque la relation est forte, le coefficient est relativement important (par rapport aux unités de la variable explicative à laquelle il est associé). Les relations faibles sont associées aux coefficients proches de zéro ; β0 est la coordonnée à l'origine de la régression. Elle représente la valeur attendue pour la variable dépendante si toutes les variables indépendantes (explicatives) sont nulles.
Valeurs de P : La plupart des méthodes de régression effectuent un test statistique pour calculer une probabilité, appelée valeur de p, pour les coefficients associés à chaque variable indépendante. L'hypothèse nulle pour ce test statistique indique qu'un coefficient n'est pas significativement différent de zéro (en d'autres termes, en réalité le coefficient est nul et la variable explicative associée n'aide pas votre modèle). Les petites valeurs de p reflètent des probabilités faibles et suggèrent que le coefficient est, en effet, important pour votre modèle avec une valeur significativement différente de zéro (en d'autres termes, une petite valeur de p indique que le coefficient n'est pas nul). Vous pouvez considérer qu'un coefficient avec une valeur de p de 0,01, par exemple, est statistiquement significatif avec un niveau de confiance de 99 pour cent ; la variable associée est un prédicteur efficace. Les variables avec des coefficients proches de zéro n'aident pas à prévoir ni à modéliser la variable dépendante ; elles sont presque toujours supprimées de l'équation de régression, à moins qu'il existe des raisons théoriques importantes de les garder.
R2/R carré : Les valeurs R carré multiple et R carré ajusté sont deux statistiques dérivées de l'équation de régression pour quantifier les performances du modèle. La valeur de R-carré est comprise entre 0 et 100 %. Si votre modèle correspond parfaitement aux valeurs de variable dépendante observées, R carré est égal à 1,0 (et vous avez sans doute fait une erreur ; peut-être avez-vous utilisé une forme de y pour prévoir y). Plus probablement, vous observez des valeurs de R carré de l'ordre de 0,49, par exemple, que vous pouvez interpréter en disant "Ce modèle explique 49 pour cent de la variation dans la variable dépendante". Pour comprendre ce que la valeur R carré signifie, créez un diagramme à barres qui affiche à la fois les valeurs y estimées et observées, triées selon les valeurs estimées. Remarquez l'importance de la superposition. Ce graphique fournit une représentation visuelle de la qualité avec laquelle les valeurs de prédiction du modèle expliquent la variation dans les valeurs de variable dépendante observées. Afficher une illustration. La valeur R carré ajustée est toujours légèrement inférieure à la valeur R carré multiple car elle reflète la complexité du modèle (nombre de variables) dans son rapport avec les données. Par conséquent, la valeur R carré ajustée est une mesure plus précise des performances du modèle.
Valeurs résiduelles : Il s'agit de la portion inexpliquée de la variable dépendante, représentée dans l'équation de régression en tant que terme d'erreur aléatoire ε. Afficher une illustration. Les valeurs connues pour la variable dépendante permettent de créer et de calibrer le modèle de régression. A l'aide des valeurs connues pour la variable dépendante (y) et des valeurs connues pour toutes les variables explicatives (les X), l'outil de régression construit une équation qui prévoit ces valeurs de y connues le mieux que possible. Toutefois, les valeurs de prédiction correspondent rarement aux valeurs observées de manière exacte. La différence entre les valeurs de y observées et les valeurs de y prévues est désignée par les valeurs résiduelles. La grandeur des valeurs résiduelles d'une équation de régression est une mesure d'ajustement du modèle. Des valeurs résiduelles élevées indiquent un faible ajustement au modèle.
La création d'un modèle de régression est un procédé itératif qui implique la découverte de variables indépendantes efficaces pour expliquer la variable dépendante que vous essayez de modéliser ou de comprendre, en exécutant l'outil de régression pour déterminer quelles variables sont des prédicteurs efficaces, puis en supprimant et/ou ajoutant des variables à plusieurs reprises jusqu'à trouver le meilleur modèle de régression possible. Bien que la création du modèle soit souvent un processus d'exploration, il ne doit pas s'agir d'une "expédition de pêche". Vous devez identifier les variables explicatives candidates en consultant la théorie, les experts de terrain et le bon sens. Vous devez être en mesure de déclarer et de justifier la relation attendue entre chaque variable explicative candidate et la variable dépendante avant l'analyse et vous devez mettre en question les modèles dans lesquels ces relations ne correspondent pas.
Si vous n'avez pas utilisé l'analyse de régression auparavant, ce serait un moment adapté pour télécharger le didacticiel d'analyse de régression et exécuter les étapes 1 à 5.
Problèmes d'analyse de régression
La régression des Moindres carrés ordinaires est une méthode simple, présente un fond théorique bien développé et dispose de plusieurs diagnostics efficaces pour faciliter l'interprétation et le dépannage. Toutefois, la méthode des moindres carrés ordinaires est efficace et fiable uniquement si vos données et votre modèle de régression vérifient toutes les conditions fondamentalement nécessaires pour cette méthode (voir la table ci-dessous). Les données spatiales violent souvent les suppositions et les besoins de la régression des moindres carrés ordinaires, il est donc important d'utiliser les outils de régression conjointement aux outils diagnostiques appropriés pouvant évaluer si la régression est une méthode appropriée pour votre analyse, étant donnée la structure des données et le modèle mis en œuvre.
Corruption des modèles de régression
Une violation sérieuse pour de nombreux modèles de régression est la spécification erronée. Un modèle mal spécifié est incomplet. Il lui manque des variables explicatives importantes, donc il ne représente pas suffisamment ce que vous essayez de modéliser ou de prévoir (la variable dépendante, y). En d'autres termes, le modèle de régression ne raconte pas toute l'histoire. La spécification erronée est évidente chaque fois que vous voyez une auto-corrélation spatiale statistiquement significative dans vos valeurs résiduelles de régression ou, autrement dit, dès lors que vous observez que les sur-estimations et les sous-estimations (valeurs résiduelles) de votre modèle ont tendance à être regroupées spatialement dans des parties différentes de la zone d'étude. La Cartographie des valeurs résiduelles de la régression ou des coefficients, associée à l'analyse de Régression pondérée géographiquement fournit souvent des indices sur les éléments manquants. L'exécution de l'outil Hot Spot Analysis sur les valeurs résiduelles de la régression peut également permettre de révéler des régimes spatiaux différents qui peuvent être modélisés dans la méthode des moindres carrés ordinaires avec des variables régionales ou résolus à l'aide de la méthode de régression pondérée géographiquement. Supposons que lorsque vous cartographiez vos valeurs résiduelles de régression, vous observez que le modèle effectue toujours une sur-estimation dans les zones de montagne et une sous-estimation dans les vallées ; vous en conclurez probablement que votre modèle manque d'une variable d'altitude. Toutefois, les variables manquantes sont parfois trop complexes à modéliser, impossibles à quantifier ou trop difficiles à mesurer. Dans ces cas, vous pouvez éventuellement passer à la méthode de régression pondérée géographiquement ou à une autre méthode de régression spatiale pour obtenir un modèle correctement spécifié.
Le tableau suivant répertorie les problèmes courants avec les modèles de régression et les outils disponibles dans ArcGIS pour aider à les résoudre :
Variables explicatives omises (spécification erronée). |
Lorsque des variables explicatives essentielles manquent dans un modèle de régression, les coefficients et leurs valeurs de p associées ne sont pas dignes de confiance. |
Cartographiez et examinez les valeurs résiduelles de la méthode des moindres carrés ordinaires et les coefficients de la régression pondérée géographiquement ou exécutez l'outil Hot Spot Analysis sur les valeurs résiduelles de la régression des moindres carrés ordinaires pour voir si vous obtenez des indices concernant les variables éventuellement manquantes. |
Relations non linéaires. Afficher une illustration. |
La méthode des moindres carrés ordinaires et la régression pondérée géographiquement sont des méthodes linéaires. Si la relation entre l'une des variables explicatives et la variable dépendante est non linéaire, le modèle résultant présente de mauvaises performances. |
Créez un graphique de matrice de nuages de points pour élucider les relations entre toutes les variables du modèle. Faites attention aux relations qui impliquent la variable dépendante. La curvilinéarité peut souvent être résolue par transformation des variables. Afficher une illustration. Vous pouvez également utiliser une méthode de régression non linéaire. |
Points de données aberrants. Afficher une illustration. |
Les points aberrants influents peuvent écarter les relations de régression modélisées de leur meilleur ajustement réel, en influençant les coefficients de régression. |
Créez une matrice de nuages de points et d'autres diagrammes (histogrammes) pour examiner les valeurs des données extrêmes. Corrigez ou supprimez les points aberrants s'ils représentent des erreurs. Lorsque les points aberrants correspondent à des valeurs correctes/valides, ils ne peuvent/doivent pas être supprimés. Exécutez la régression avec et sans points aberrants pour voir dans quelle mesure ils affectent vos résultats. |
Stationnarité nulle. Vous pouvez observer qu'une variable de revenu, par exemple, présente un potentiel explicatif fort dans la région A mais est insignifiante ou même change de signe dans la région B. Afficher une illustration. |
Si les relations entre vos variables dépendantes et explicatives sont incohérentes sur l'ensemble de votre zone d'étude, les erreurs standard calculées sont augmentées artificiellement. |
L'outil Moindres carrés ordinaires dans ArcGIS teste automatiquement les problèmes associés à la stationnarité nulle (variation régionale) et calcule les valeurs d'erreur standard robustes. Afficher une illustration. Lorsque la probabilité associée au test de Koenker est réduite (< 0,05, par exemple), vous disposez d'une variation régionale statistiquement significative et devez consulter les probabilités robustes pour déterminer si une variable explicative est statistiquement significative ou non. Souvent, vous améliorez les résultats du modèle à l'aide de l'outil Régression pondérée géographiquement. |
Multicolinéarité. Une variable explicative ou une combinaison de variables explicatives est redondante. Afficher une illustration. |
La multicolinéarité mène à un type de biais surévalué et à un modèle instable/peu fiable. |
L'outil Moindres carrés ordinaires dans ArcGIS vérifie automatiquement la redondance. Une valeur VIF calculée est attribuée à chaque variable explicative. Lorsque cette valeur est importante (> 7,5, par exemple), la redondance est un problème et les variables en question doivent être supprimées du modèle ou modifiées en créant une variable d'interaction ou en augmentant la taille de l'échantillon. Afficher une illustration. |
Variance incohérente dans les valeurs résiduelles. Il est possible que le modèle effectue de bonnes prédictions pour les valeurs réduites de la variable dépendante mais devienne peu fiable pour les valeurs importantes. Afficher une illustration. |
Lorsque le modèle présente de mauvaises prédictions pour une certaine plage de valeurs, les résultats sont biaisés. |
L'outil Moindres carrés ordinaires dans ArcGIS teste automatiquement la variance incohérente des valeurs résiduelles (nommée hétéroscédasticité) et calcule des erreurs standard robustes à ce problème. Lorsque la probabilité associée au test de Koenker est réduite (< 0,05, par exemple), vous devez consulter les probabilités robustes afin de déterminer si une variable explicative est statistiquement significative ou non. Afficher une illustration. |
Valeurs résiduelles spatialement auto-corrélées. Afficher une illustration. |
En cas d'agrégation spatiale des sur-estimations ou sous-estimations issues du modèle, ce regroupement introduit un type de biais surévalué et rend le modèle peu fiable. |
Exécutez l'outil Spatial Autocorrelation sur les valeurs résiduelles afin de garantir qu'elles ne présentent pas d'agrégation spatiale statistiquement significative. L'auto-corrélation spatiale statistiquement significative est presque toujours un symptôme de spécification erronée (une variable essentielle manque dans le modèle). Afficher une illustration. |
Biais de distribution normale. Afficher une illustration. |
Lorsque les valeurs résiduelles du modèle de régression ne sont pas distribuées normalement avec une moyenne de zéro, les valeurs de p associées aux coefficients sont peu fiables. |
L'outil Moindres carrés ordinaires dans ArcGIS teste automatiquement si les valeurs résiduelles sont distribuées normalement. Lorsque la statistique de Jarque-Bera est significative (< 0,05, par exemple), votre modèle est probablement mal spécifié (une variable essentielle manque dans le modèle) ou certaines des relations modélisées sont non linéaires. Examinez la carte des valeurs résiduelles en sortie et éventuellement les cartes des coefficients de régression pondérée géographiquement pour voir si cet exercice révèle les variables essentielles qui manquent dans l'analyse. Affichez les graphiques de matrice de nuages de points et recherchez des relations non linéaires. |
Il est important de tester chacun des problèmes répertoriés ci-dessus. Les résultats peuvent être erronés à 100 % (différence d'orientation de 180 degrés) si les problèmes ci-dessus sont ignorés.
Si vous n'avez pas utilisé l'analyse de régression auparavant, ce serait un moment adapté pour télécharger et pratiquer le didacticiel d'analyse de régression.
Régression spatiale
Les données spatiales exposent deux propriétés qui rendent difficile (mais non impossible) de satisfaire les suppositions et les besoins des méthodes statistiques traditionnelles (non spatiales), comme la régression des moindres carrés ordinaires :
- Les entités géographiques sont la plupart du temps spatialement auto-corrélées, ce qui signifie que les entités proches entre elles ont tendance à être plus similaires que les entités plus éloignées. Cela crée un type de biais surévalué pour les méthodes de régression traditionnelles (non spatiales).
- La géographie est importante et souvent les processus les plus importants pour les éléments modélisés sont non stationnaires ; ces processus se comportent différemment dans différentes parties de la zone d'étude. Cette caractéristique des données spatiales peut être connue comme variation régionale ou stationnarité nulle.
Les vraies méthodes de régression spatiales ont été développées pour gérer robustement ces deux caractéristiques des données spatiales et même incorporer ces qualités spéciales des données spatiales pour améliorer leur capacité à modéliser des relations de données. Certaines méthodes de régression spatiales traitent efficacement la première caractéristique (auto-corrélation spatiale), d'autres traitent efficacement la seconde (stationnarité nulle). A l'heure actuelle, aucune méthode de régression spatiale n'est efficace pour les deux caractéristiques. Toutefois, pour un modèle de Régression pondérée géographiquement spécifié correctement, l'auto-corrélation spatiale n'est pas généralement un problème.
Auto-corrélation spatiale
Il semble exister une grande différence entre les manières selon lesquelles un statisticien traditionnel et un statisticien spatial considèrent l'auto-corrélation spatiale. Le statisticien traditionnel la considère comme une mauvaise chose devant être supprimée des données (par ré-échantillonnage, par exemple), car l'auto-corrélation spatiale viole des suppositions sous-jacentes de nombreuses méthodes statistiques traditionnelles (non spatiales). Pour le géographe ou analyste SIG, toutefois, l'auto-corrélation spatiale est une preuve d'activité de processus spatiaux sous-jacents importants ; il s'agit d'un composant des données à part entière. La suppression de l'espace écarte les données de leur contexte spatial ; cela revient à connaître uniquement la moitié de l'histoire. Les processus spatiaux et relations spatiales évidents dans les données constituent un intérêt principal et l'une des raisons pour lesquelles les utilisateurs de SIG s'intéressent fortement à l'analyse de données spatiales. Toutefois, pour éviter un type de biais surévalué dans votre modèle, vous devez identifier l'ensemble complet de variables explicatives qui capturent efficacement la structure spatiale inhérente à votre variable dépendante. Si vous ne pouvez pas identifier toutes ces variables, vous observerez vraisemblablement une auto-corrélation spatiale statistiquement significative dans les valeurs résiduelles du modèle. Malheureusement, vous ne pouvez pas faire confiance à vos résultats de régression avant d'avoir résolu cette situation. Utilisez l'outil Spatial Autocorrelation pour tester l'auto-corrélation spatiale statistiquement significative dans vos valeurs résiduelles de régression.
Il existe au moins trois stratégies permettant de gérer l'auto-corrélation spatiale dans les valeurs résiduelles du modèle de régression :
- Effectuez un ré-échantillonnage jusqu'à ce que les variables en entrée ne présentent plus d'auto-corrélation spatiale statistiquement significative. Bien que cette opération ne garantisse pas l'absence de problèmes d'auto-corrélation spatiale dans l'analyse, ils sont bien moins vraisemblables lorsque l'auto-corrélation spatiale est supprimée des variables dépendantes et explicatives. Cette approche correspond à la manière du statisticien traditionnel de gérer l'auto-corrélation spatiale et est appropriée uniquement si l'auto-corrélation spatiale est le résultat d'une redondance de données (la structure d'échantillonnage est trop fine).
- Isolez les composants spatiaux et non spatiaux de chaque variable en entrée à l'aide d'une méthode de régression de filtrage spatial. L'espace est supprimé de chaque variable, mais restitué dans le modèle de régression en tant que nouvelle variable afin de prendre en compte les effets spatiaux/la structure spatiale. ArcGIS ne propose actuellement aucune méthode de régression de filtrage spatial.
- Incorporez l'auto-corrélation spatiale dans le modèle de régression à l'aide des méthodes de régression économétriques spatiales. Les méthodes de régression économétriques spatiales seront intégrées à ArcGIS dans une version future.
Variation régionale
Les modèles globaux, comme la régression des moindres carrés ordinaires, créent des équations qui décrivent le mieux les relations de données globales dans une zone d'étude. Lorsque ces relations sont cohérentes sur l'ensemble de la zone d'étude, l'équation de la régression des moindres carrés ordinaires les modélise bien. Toutefois, lorsque ces relations se comportent différemment dans différentes parties de la zone d'étude, l'équation de régression est plutôt une moyenne du mélange de relations en présence et dans le cas où ces relations représentent deux extrêmes, la moyenne globale ne modélise pas bien ni l'un ni l'autre extrême. Lorsque vos variables explicatives présentent des relations non stationnaires (variation régionale), les modèles globaux ont tendance à s'effondrer, à moins d'utiliser des méthodes robustes pour calculer les résultats de régression. Idéalement, vous êtes en mesure d'identifier un ensemble complet de variables explicatives pour capturer la variation régionale inhérente à votre variable dépendante. Si toutefois vous ne pouvez pas identifier toutes ces variables spatiales, vous remarquerez encore une auto-corrélation spatiale statistiquement significative dans vos valeurs résiduelles du modèle et/ou des valeurs de R carré inférieures à vos attentes. Malheureusement, vous ne pouvez pas faire confiance à vos résultats de régression avant d'avoir résolu cette situation.
Il existe au moins quatre manières de gérer la variation régionale dans les modèles de régression des moindres carrés ordinaires :
- Incluez une variable dans le modèle qui explique la variation régionale. Si vous observez que votre modèle présente toujours une sur-estimation dans le nord et une sous-estimation dans le sud, par exemple, ajoutez une variable régionale définie sur 1 pour les entités du nord et sur 0 pour les entités du sud.
- Utilisez des méthodes qui intègrent la variation régionale dans le modèle de régression, telle que la régression pondérée géographiquement.
- Consultez les probabilités et erreurs standard de régression robustes pour déterminer si les coefficients des variables sont statistiquement significatifs. Reportez-vous à la rubrique Interprétation des résultats de régression des moindres carrés ordinaires. La régression pondérée géographiquement reste recommandée.
- Redéfinissez/réduisez la taille de la zone d'étude afin que les processus qu'elle comprend soient tous stationnaires (ne présentent plus de variation régionale).
Pour plus d'informations sur l'utilisation des outils de régression, reportez-vous aux rubriques suivantes :
Pour en savoir plus sur la régression des moindres carrés ordinaires
Pour en savoir plus sur la régression pondérée géographiquement
Interprétation des résultats de régression des moindres carrés ordinaires
Interprétation des résultats de régression pondérée géographiquement