Qu'est-ce qu'un score z ? Qu'est-ce qu'une valeur de p ?

La plupart des tests statistiques commencent par l'identification d'une hypothèse nulle. L'hypothèse nulle pour les outils d'analyse de motif (jeu d'outils Analyse de modèles et jeu d'outils Appariement d'agrégats) est CSR (Complete Spatial Randomness, caractère aléatoire spatial complet), pour les entités elles-mêmes ou les valeurs associées à ces entités. Les scores z et valeurs de p renvoyées par les outils d'analyse de motif vous indiquent si vous pouvez rejeter cette hypothèse nulle ou non. Souvent, vous exécutez l'un des outils d'analyse de motif en espérant que le score z et la valeur de p indiqueront que vous pouvez rejeter l'hypothèse nulle, car cela indiquerait qu'au lieu d'un motif aléatoire, vos entités (ou les valeurs associées à vos entités) présentent une agrégation ou une dispersion statistiquement significative. Dès lors que vous observez une structure spatiale comme l'agrégation dans le paysage (ou dans vos données spatiales), vous observez la preuve du fonctionnement de processus spatiaux sous-jacents et en tant que géographe ou analyste SIG, il s'agit souvent des éléments qui vous intéressent le plus.

La valeur de p est une probabilité. Pour les outils d'analyse de motif, elle représente la probabilité que le motif spatial observé ait été créé par un processus aléatoire. Lorsque la valeur de p est très petite, elle indique qu'il est très improbable (probabilité réduite) que le motif spatial observé soit le résultat de processus aléatoires, vous pouvez donc rejeter l'hypothèse nulle. Vous pouvez vous demander : Quelle valeur est suffisamment petite ? Bonne question. Reportez-vous au tableau et à la discussion ci-dessous.

Les scores z sont simplement des écarts types. Par exemple, si un outil renvoie un score z de +2,5, vous pouvez dire que le résultat est 2,5 écarts types. Les scores z et les valeurs de p sont associés à la distribution normale standard comme indiqué ci-dessous.

Distribution normale standard

Les scores z très élevés ou très bas (négatifs), associés à des valeurs de p très petites, figurent dans les extrémités de la distribution normale. Lorsque vous exécutez un outil d'analyse du motif des entités et qu'il retourne de petites valeurs de p et un score z très élevé ou très bas, cela indique qu'il est improbable que le motif spatial observé reflète le motif aléatoire théorique représenté par votre hypothèse nulle (CSR).

Pour rejeter l'hypothèse nulle, vous devez effectuer un jugement subjectif concernant le degré de risque de vous tromper (en rejetant l'hypothèse nulle de manière erronée) que vous êtes disposé à accepter. Par conséquent, avant d'exécuter la statistique spatiale, vous sélectionnez un niveau de confiance. Les niveaux de confiance habituels sont 90, 95 ou 99 pour cent. Un niveau de fiabilité de 99 pour cent correspond au plus conservatif dans ce cas, indiquant que vous êtes peu disposé à rejeter l'hypothèse nulle à moins que la probabilité que le motif ait été créé de manière aléatoire soit réellement petite (moins de 1 pour cent de probabilité). Le tableau suivant montre les valeurs de p et scores z critiques pour différents niveaux de confiance.

Score z (écarts types)

Valeur de p (probabilité)

Niveau de confiance

< -1,65 ou > +1,65

< 0,10

90%

< -1,96 ou > +1,96

< 0,05

95%

< -2,58 ou > +2,58

< 0,01

99%

Considérons un exemple. Les valeurs de score z critiques lors de l'utilisation d'un niveau de confiance de 95 pour cent sont de -1,96 et +1,96 écarts types. La valeur de p associée à un niveau de confiance de 95 pour cent est de 0,05. Si votre score z est entre -1,96 et +1,96, votre valeur de p sera supérieure à 0,05 et vous ne pouvez pas rejeter votre hypothèse nulle ; le motif exposé pourrait très vraisemblablement être le résultat de processus spatiaux aléatoires. Si le score z tombe à l'extérieur de cette plage (par exemple -2,5 ou +5,4 écarts types), le motif spatial observé est probablement trop exceptionnel pour être le résultat du hasard, et la valeur de p est petite pour refléter cette situation. Dans ce cas, il est possible de rejeter l'hypothèse nulle et de continuer à rechercher ce qui peut être à l'origine de la structure spatiale statistiquement significative de vos données.

Ici, une idée essentielle est que les valeurs au milieu de la distribution normale (scores z comme 0,19 ou -1,2, par exemple), représentent le résultat attendu. Toutefois, lorsque la valeur absolue du score z est grande et que les probabilités sont petites (dans les extrémités de la distribution normale), vous observez quelque chose d'inhabituel et généralement de très intéressant. Pour l'outil Hot Spot Analysis par exemple, "inhabituel" signifie un point chaud ou un point froid statistiquement significatif.

Hypothèse nulle

Plusieurs statistiques de la boîte à outils de statistiques spatiales sont des techniques d'analyse de motif spatial inférentielles, par exemple Spatial Autocorrelation (Global Moran's I), Cluster and Outlier Analysis (Anselin Local Moran's I) et Hot Spot Analysis (Getis-Ord Gi*). Les statistiques inférentielles reposent sur la théorie de la probabilité. La probabilité est une mesure du hasard, et tous les tests statistiques (directement ou indirectement) présentent des calculs de probabilité sous-jacents qui évaluent le rôle du hasard sur le résultat de votre analyse. En général, avec les statistiques traditionnelles (non spatiales), vous utilisez un échantillon aléatoire et essayez de déterminer la probabilité selon laquelle vos données d'échantillonnage sont une bonne représentation de la population dans son ensemble. A titre d'exemple, vous pouvez vous demander "Quelles sont les chances que les résultats de mon sondage à chaud (indiquant la victoire du candidat A sur le candidat B avec une marge infime) reflètent les résultats finaux de l'élection ?" Mais avec de nombreuses statistiques spatiales, y compris les statistiques de type auto-corrélation spatiale répertoriées ci-dessus, vous gérez souvent toutes les données disponibles pour la zone d'étude (tous les crimes, tous les cas de maladies, les attributs pour chaque îlot de recensement, etc.). Lorsque vous calculez une statistique pour la population entière, vous ne disposez plus d'une évaluation. Vous disposez d'un fait. Par conséquent, il devient absurde de parler de chances ou de probabilité. Ainsi, comment les outils d'analyse de motif spatiaux, souvent appliqués à l'ensemble des données de la zone d'étude, peuvent-ils légitimement indiquer des probabilités ? La réponse est qu'ils peuvent le faire en postulant, via l'hypothèse nulle, que les données font en réalité partie d'une population plus importante. Considérons cette affirmation plus en détail.

L'hypothèse nulle aléatoire : Lorsqu'elle est adaptée, les outils de la boîte à outils de statistiques spatiales utilisent l'hypothèse nulle aléatoire en tant que base du test de signification statistique. L'hypothèse nulle aléatoire postule que le motif spatial observé de vos données représente un arrangement spatial parmi de nombreux (n!) arrangements possibles. Si vous pouviez saisir vos valeurs de données et les jeter sur les entités de votre zone d'étude, vous obtiendriez un arrangement spatial possible de ces valeurs (notez que le fait de saisir vos valeurs de données et de les jeter arbitrairement est un exemple de processus spatial aléatoire). L'hypothèse nulle aléatoire affirme que si vous pouviez faire cet exercice (les saisir, les jeter) un nombre infini de fois, la plupart du temps vous produiriez un motif qui ne serait pas particulièrement différent du motif observé (vos données réelles). De temps en temps, vous pouvez par accident jeter toutes les valeurs les plus élevées dans le même angle de votre zone d'étude, mais la probabilité en est réduite. L'hypothèse nulle aléatoire affirme que vos données sont une version possible parmi les très nombreuses versions à caractère aléatoire spatial complet. Les valeurs des données sont fixes ; seul leur arrangement spatial peut varier.

L'hypothèse nulle de normalisation : Une autre hypothèse nulle courante, non implémentée pour la boîte à outils de statistiques spatiales, est l'hypothèse nulle de normalisation. L'hypothèse nulle de normalisation postule que les valeurs observées sont dérivées d'une population de valeurs infiniment grande à distribution normale, par l'intermédiaire d'un processus d'échantillonnage aléatoire. Avec un échantillon différent vous obtiendriez des valeurs différentes, mais vous attendriez encore que ces valeurs soient représentatives de la distribution plus importante. L'hypothèse nulle de normalisation déclare que les valeurs représentent un échantillon parmi de nombreux échantillons de valeurs possibles. Si vous pouviez ajuster vos données observées sur une courbe normale et sélectionner dans cette distribution des valeurs aléatoires à lancer sur votre zone d'étude, la plupart du temps vous produiriez un motif et une distribution de valeurs qui ne serait pas particulièrement différente du motif/de la distribution observés (vos données réelles). L'hypothèse nulle de normalisation affirme que vos données et leur arrangement sont un échantillon possible parmi les très nombreux échantillons aléatoires possibles. Ni les valeurs des données ni leur arrangement spatial ne sont fixes. L'hypothèse nulle de normalisation est appropriée uniquement lorsque les valeurs des données sont distribuées normalement.

Ressources supplémentaires :

Thèmes connexes

9/13/2013