Cómo funciona la búsqueda por similitud

La herramienta Búsqueda por similitud identifica qué Entidades candidatas son más parecidas (o menos parecidas) a una o varias Entidades de entrada para coincidencia. La similitud se basa en una lista especificada de atributos numéricos (Atributos de interés). Si se especifica más de una opción Entidades de entrada para coincidencia, la similitud se basa en los promedios de cada Atributo de interés. La clase de entidad de salida (Entidades de salida) contendrá las Entidades de entrada para coincidencia junto con todas las Entidades candidatas coincidentes que se han encontrado, ordenadas por similitud (tal y como especifica el parámetro Más o menos similar). El número de coincidencias devuelto se basa en el valor del parámetro Número de resultados.

Potenciales aplicaciones

Métodos de geocodificación

La geocodificación puede estar basada en valores de atributos, valores de atributos clasificados, o perfiles de atributos (similitud de coseno). A continuación se describe el algoritmo empleado para cada uno de estos métodos. Para todos los métodos, si existe más de una opción Entidades de entrada para coincidencia, los atributos de todas las entidades se promedian para crear una entidad de destino compuesta que se usará en el proceso de coincidencia: Promedio de atributos de interés

Valores de atributos

Cuando se selecciona ATTRIBUTE_VALUES para el parámetro Método de coincidencia, la herramienta estandariza primero todos los Atributos de interés. A continuación, para cada candidato resta los valores estandarizados de los de destino, cuadra las diferencias y suma las diferencias cuadradas. Esta suma se convierte en el índice de similitud para ese candidato. Cuando todos los candidatos se han procesado, se clasifican del índice más pequeño (más similar) al índice más alto (menos similar).

InmersiónInmersión:

La estandarización de los valores de atributos implica una transformación z en la que cada valor se resta del promedio para todos los valores y se divide por la desviación estándar de todos los valores. La estandarización pone todos los atributos en la misma escala aunque estén representados por tipos de números muy diferentes: tasas (número de 0 a 1,0), población (valores superior a 1 millón) y distancias (kilómetros, por ejemplo).

Valores de atributo clasificados

Cuando se selecciona RANKED_ATTRIBUTE_VALUES para el parámetro Método de coincidencia, la herramienta empezará a clasificar cada uno de los Atributos de interés, tanto para la entidad de destino como para todos los candidatos. A continuación, para cada candidato se suma la diferencia cuadrada de cada atributo en relación con la entidad de destino. Si el valor de la población para el destino es el décimo mayor de todos los candidatos, y la población del candidato que se está teniendo en cuenta es la decimoquinta mayor, la suma de la diferencia cuadrada de población de clasificación de este candidato sería 10 - 15 = -5 y -5**2 es 25. La suma de las diferencias cuadradas de clasificación para todos los Atributos de interés se convierte en el índice de similitud de este candidato. Cuando todos los candidatos se han procesado, se clasifican del índice más pequeño (más similar) al índice más alto (menos similar).

Perfiles de atributos

Cuando se selecciona ATTRIBUTE_PROFILES para el parámetro Método de coincidencia, la herramienta estandariza primero todos los Atributos de interés (se requieren como mínimo dos Atributos de interés para este método). A continuación utiliza las matemáticas de similitud de coseno para comparar el vector de los atributos estandarizados de cada candidato con el vector de los atributos estandarizados de la entidad de destino que se busca. La similitud de coseno de dos vectores, A y B, se calcula como:

Ecuación de similitud de coseno

A la similitud de coseno no le afecta la coincidencia de las magnitudes de atributo, sino que este método se centra más bien en las relaciones entre los atributos. Si ha creado un perfil (gráfico de líneas) de los atributos estandarizados en los vectores que se están comparando (el destino y uno de los candidatos), observará perfiles muy similares o bien perfiles muy diferentes:

Perfiles de atributos

El índice de similitud de coseno oscila entre 1,0 (similitud perfecta) y -1,0 (disimilitud perfecta) y se notifica en el campo SIMINDEX (Similitud de coseno). Este método de similitud se utiliza para encontrar lugares que tienen las mismas características pero quizá una mayor o menor escala.

Mejores prácticas

Representación cartográfica de patrones de similitud

Si establece el parámetro Número de resultados en un valor muy grande (igual o mayor que el número de entidades de Entidades candidatas), la herramienta clasificará a todos los candidatos. La salida de este análisis mostrará el patrón espacial de similitud. Tenga en cuenta que cuando clasifique a todos los candidatos, obtendrá información sobre la similitud y la disimilitud.

Mapa de similitud clasificada

Variables espaciales incluidas

Supongamos que conoce las ubicaciones (áreas de polígono) donde una especie concreta en peligro de extinción se está recuperando bien y quiere buscar otras ubicaciones donde dicha población animal también esté prosperando. Debería buscar zonas parecidas a las áreas donde la recuperación está teniendo éxito, pero también deberá buscar zonas lo suficientemente extensas y compactas para garantizar el éxito de la especie. Para este análisis puede calcular una métrica de compactación para cada área poligonal (las mediciones comunes de compactación se basan en el área de un polígono en relación al área de un círculo con el mismo perímetro). A continuación puede incluir su medición de compactación y un atributo que refleje el tamaño del polígono (Shape_Area) en el parámetro Campos para añadir a la salida cuando ejecute la herramienta Búsqueda por similitud. El ordenamiento de las diez principales coincidencias de solución tanto en términos de compactación y área le ayudará a identificar las ubicaciones más adecuadas para la reintroducción de especies animales.

Quizá es un minorista interesado en crecer. Si tiene algunas tiendas con un excelente nivel de ventas, puede usar atributos que reflejen las características de éxito clave para ayudar a buscar ubicaciones candidatas para la expansión. Supongamos que los productos que comercializa tienen mejor acogida entre los estudiantes universitarios y quiere evitar zonas cercanas a sus tiendas o a la competencia. Antes de ejecutar la herramienta Búsqueda por similitud puede usar la herramienta Cerca para crear sus variables espaciales: distancia a las universidades o lugares con alta densidad de universitarios, distancia a las tiendas existentes, y distancia a la competencia. A continuación puede incluir estas variables espaciales en el parámetro Campos para añadir a la salida cuando ejecute la herramienta Búsqueda por similitud.

5/10/2014