Fonctionnement de l'analyse de points chauds optimisée

L'analyse de points chauds optimisée exécute l'outil Analyse de points chauds (Getis-Ord Gi*) à l'aide des paramètres découlant des caractéristiques de vos données en entrée. Tout comme le réglage automatique d'un appareil photo numérique se fonde sur l'éclairage et le sujet pour déterminer l'ouverture, la vitesse d'obturation et la mise au point appropriées, l'outil Analyse de points chauds optimisée interroge vos données pour connaître les paramètres qui donneront les meilleurs points chauds. Si, par exemple, le jeu de données Entités en entrée contient des données ponctuelles d'incident, l'outil agrège les incidents en entités pondérées. En utilisant la distribution des entités pondérées, l'outil identifie une échelle d'analyse appropriée. La signification statistique indiquée dans les entités en sortie est automatiquement ajustée pour tenir compte des tests multiples et de la dépendance spatiale à l'aide de la méthode de correction FDR (False Discovery Rate).

Chacune des décisions prises par l'outil afin d'obtenir les meilleurs résultats possibles est signalée dans la fenêtre Résultats et une explication de ces décisions est présentée dessous. Cliquez avec le bouton droit sur l'entrée Messages dans la fenêtre Résultats et sélectionnez Afficher pour faire apparaître les informations d'exécution de l'outil dans une boîte de dialogue Message.

Tout comme le mode manuel de votre appareil photo vous permet de remplacer les paramètres automatiques, l'outil Analyse de points chauds (Getis-Ord Gi*) vous confère un contrôle total sur toutes les options de paramètre. Exécutez l'outil Analyse de points chauds optimisée et prenez note des paramètres qu'il utilise pour affiner et contrôler entièrement les paramètres de l'outil Analyse de points chauds (Getis-Ord Gi*).

Le workflow de l'outil Analyse de points chauds optimisée comprend les composants suivants. Les calculs et les algorithmes utilisés au sein de chacun de ces composants sont décrits ci-dessous.

Evaluation initiale des données

Dans ce composant, les entités en entrée, ainsi que le champ d'analyse, les polygones d'emprise définissant l'endroit où les incidents sont possibles et les polygones d'agrégation des incidents en points facultatifs, sont examinés avec soin pour s'assurer que le nombre d'entités et la variation adéquate des valeurs à analyser sont suffisants. Si l'outil rencontre des enregistrements dont la géométrie est endommagée ou absente, ou si un champ d'analyse est spécifié et que des valeurs Null sont présentes, les enregistrements associés sont répertoriés comme des enregistrements incorrects et sont exclus de l'analyse.

L'outil Analyse de points chauds optimisée utilise la statistique Getis-Ord Gi* et, tout comme de nombreuses méthodes statistiques, les résultats ne sont pas fiables si le nombre d'entités est inférieur à 30. Si vous fournissez des entités en entrée de type polygone ou des entités en entrée de type point, ainsi qu'un champ d'analyse, vous avez besoin d'au moins 30 entités pour utiliser cet outil. Le nombre minimal de polygones d'agrégation des incidents en points est également de 30. La couche d'entités représentant les polygones d’emprise définissant l’endroit où les incidents sont possibles peut inclure un ou plusieurs polygones.

Pour la statistique Gi*, des valeurs doivent également être associées à chaque entité analysée. Lorsque les entités en entrée que vous fournissez représentent des données d'incident (lorsque vous n'indiquez pas de champ d'analyse), l'outil agrège les incidents et les nombres d'incidents servent de valeurs à analyser. Au terme du processus d'agrégation, 30 entités au moins doivent toujours être présentes. Il est par conséquent préférable de commencer avec plus de 30 entités pour les données d'incident. Le tableau ci-dessous présente le nombre minimal d'entités pour chaque méthode d'agrégation des données d'incident :

Nombre minimal d'incidents

Méthode d'agrégation

Nombre minimal d'entités après l'agrégation

60

NOMBRE D'INCIDENTS AU SEIN DES POLYGONES DE QUADRILLAGE, sans indiquer les polygones d'emprise définissant l'endroit où les incidents sont possibles

30

30

NOMBRE D'INCIDENTS AU SEIN DES POLYGONES DE QUADRILLAGE, lorsque vous indiquez une classe d'entité pour le paramètre Polygones d'emprise définissant l'endroit où les incidents sont possibles

30

30

NOMBRE D'INCIDENTS AU SEIN DES POLYGONES D'AGREGATION

30

60

CAPTURE DES INCIDENTS A PROXIMITE POUR CREER DES POINTS PONDERES

30

La statistique Gi* a également été conçue pour un champ d'analyse avec différentes valeurs. La statistique ne convient pas aux données binaires par exemple. L'outil Analyse de points chauds optimisée vérifie le champ d'analyse pour s'assurer que les valeurs présentent au moins une certaine variation.

Si vous spécifiez un chemin d'accès pour la surface de densité, ce composant du workflow de l'outil vérifie également le paramètre d'environnement du masque d'analyse raster. Si aucun masque d'analyse raster n'est défini, il crée une enveloppe convexe autour des points d'incident afin de découper la couche raster de surface de densité en sortie. Le paramètre Surface de densité est activé uniquement si vos entités en entrée sont des points et si l'Extension ArcGIS Spatial Analyst est installée. Il est activé uniquement pour la méthode d'agrégation des données d'incident CAPTURE DES INCIDENTS A PROXIMITE POUR CREER DES POINTS PONDERES.

Les points aberrants d'emplacement sont des entités beaucoup plus éloignées des entités voisines que la majorité des entités du jeu de données. Imaginez un environnement urbain avec de grandes villes à forte densité de population au centre et des villes plus petites, moins densément peuplées, à la périphérie. Si vous calculez la distance moyenne du voisin le plus proche pour ces villes, le résultat est moindre si vous excluez les points aberrants d'emplacement situés à la périphérie et si vous vous concentrez uniquement sur les villes proches du centre urbain. Ceci est un exemple de l'impact significatif que peuvent avoir les points aberrants d'emplacement sur les statistiques spatiales, telles que Moyenne du voisin le plus proche. Comme l'outil Analyse de points chauds optimisée utilise les calculs de la moyenne et de la médiane du voisin le plus proche pour l'agrégation et pour identifier une échelle d'analyse adéquate, le composant Evaluation initiale des données de l'outil identifie également les points aberrants d'emplacement des entités en entrée ou des polygones d'agrégation des incidents en points et signale le nombre qu'il obtient. Pour ce faire, l'outil calcule la distance moyenne du voisin le plus proche de chaque entité et évalue la distribution de toutes ces distances. Les entités qui se trouvent à plus de trois écarts types de leur voisin non coïncident le plus proche sont considérées comme des points aberrants d'emplacement.

Agrégation des incidents

Pour les données d'incident, le prochain composant du workflow agrège vos données. Trois approches sont disponibles, selon la Méthode d’agrégation des données d’incident que vous sélectionnez. Les algorithmes de chacune de ces approches sont décrits ci-dessous.

Echelle de l'analyse

Le composant suivant du workflow Analyse de points chauds optimisée s'applique aux entités pondérées soit parce que vous avez indiqué des entités en entrée avec un champ d'analyse, soit parce que la procédure d'agrégation des incidents a généré des pondérations à partir des nombres d'incidents. La prochaine étape consiste à identifier une échelle d'analyse appropriée. L'échelle d'analyse idéale est une distance qui correspond à l'échelle de la question que vous posez (si vous recherchez les points chauds d'une épidémie et que vous savez que le moustique vecteur de la maladie a une portée de 10 miles, par exemple, vous pouvez dans ce cas utiliser une distance de 10 miles). Lorsqu'il n'est pas possible de connaître la distance précise à utiliser pour l'échelle d'analyse, certaines stratégies peuvent vous aider. L'outil Analyse de points chauds optimisée utilise ces stratégies.

La première stratégie tentée est l'autocorrélation spatiale incrémentielle. Dès lors que vous remarquez une agrégation spatiale dans le paysage, vous voyez la preuve de l'existence de processus spatiaux sous-jacents. L'outil Autocorrélation spatiale incrémentielle exécute la statistique de l'indice global de Moran pour une série de distances de plus en plus élevées, mesurant l'intensité de l'agrégation spatiale pour chacune d'elles. L'intensité de l'agrégation est déterminée par le score z obtenu. Au fur et à mesure que la distance augmente, le score z fait de même, indiquant l'intensification de l'agrégation. Cependant, à une certaine distance , le score z atteint généralement un pic. Les pics représentent des distances où les processus spatiaux qui favorisent l'agrégation sont les plus prononcés. L'outil Analyse de points chauds optimisée recherche les pics de distance à l'aide de l'autocorrélation spatiale incrémentielle. Si un pic de distance est trouvé, cette distance devient l'échelle d'analyse. Si plusieurs pics de distance sont détectés, le premier pic de distance est sélectionné.

Si aucun pic de distance n'est identifié, l'analyse de points chauds optimisée examine la distribution spatiale des entités et calcule la distance moyenne pouvant générer K voisins pour chaque entité. La valeur K est calculée de la manière suivante : 0,05 * N, où N est le nombre d'entités de la couche des entités en entrée. La valeur K est ajustée afin de ne jamais être inférieure à 3 ou supérieure à 30. Si la distance moyenne pouvant générer K voisins dépasse une distance standard, l'échelle d'analyse est définie sur une distance standard. Sinon, elle reflète la distance moyenne de K voisins.

L'étape d'autocorrélation spatiale incrémentielle peut prendre du temps pour les jeux de données volumineux et denses. Par conséquent, lorsqu'une entité qui comprend 500 voisins ou plus est rencontrée, l'analyse incrémentielle est ignorée et la distance moyenne pouvant générer 30 voisins est calculée et utilisée pour l'échelle d'analyse.

La distance qui reflète l'échelle d'analyse est indiquée dans la fenêtre Résultats et sert à effectuer l'analyse de points chauds. Si vous fournissez un chemin d'accès pour le paramètre Surface de densité, cette distance optimale sert également de rayon de recherche avec l'outil Densité de noyau. Cette distance correspond au paramètre Canal distance ou distance seuil utilisé par l'outil Analyse de points chauds (Getis-Ord Gi*).

Analyse de points chauds

A ce stade du workflow Analyse de points chauds optimisée, tous les contrôles et tous les paramètres ont été réalisés. L'étape suivante consiste à exécuter la statistique Getis-Ord Gi*. Vous trouverez plus d'informations sur cette statistique dans la rubrique Fonctionnement de l'analyse de points chauds (Getis-Ord Gi*). Les résultats de la statistique Gi* sont automatiquement corrigés pour tenir compte des tests multiples et de la dépendance spatiale à l'aide de la méthode de correction FDR (False Discovery Rate). Les messages de la fenêtre Résultats récapitule le nombre d'entités identifiées comme des points chauds ou des points froids statistiquement significatifs, une fois la correction FDR appliquée.

Sortie

Le dernier composant de l'outil Analyse de points chauds optimisée permet de créer les entités en sortie et, si spécifiée, la couche raster de surface de densité. Si les entités en entrée représentent les données d'incident qui nécessitent une agrégation, les entités en sortie reflètent les entités pondérées agrégées (des cellules de polygone de quadrillage, les polygones d'agrégation que vous avez fournis pour le paramètre Polygones d'agrégation des incidents en points ou des points pondérés). Chaque entité comporte un score z, une valeur de p et un résultat Gi_Bin.

Lorsqu'elle est spécifiée, la surface de densité est créée à l'aide de l'outil Densité de noyau. Le rayon de recherche de cet outil est identique à l'échelle de la distance d'analyse utilisée pour l'analyse de points chauds. Le rendu par défaut est constitué de valeurs étirées le long d'un dégradé de couleurs en nuances de gris. Si un masque d'analyse raster est spécifié dans les paramètres d'environnement, la surface de densité en sortie est découpée sur le masque d'analyse. Si aucun masque d'analyse raster n'est spécifié, la surface de densité est découpée sur une enveloppe convexe autour des centroïdes des entités en entrée.

LicenceLicence :

L'outil Densité de noyau permet de créer la surface de densité. Comme cet outil fait partie de l'Extension ArcGIS Spatial Analyst, le paramètre Surface de densité reste désactivé si vous ne possédez pas cette extension.

5/10/2014