Cómo funciona la búsqueda por similitud
La herramienta Búsqueda por similitud identifica qué Entidades candidatas son más parecidas (o menos parecidas) a una o varias Entidades de entrada para coincidencia. La similitud se basa en una lista especificada de atributos numéricos (Atributos de interés). Si se especifica más de una opción Entidades de entrada para coincidencia, la similitud se basa en los promedios de cada Atributo de interés. La clase de entidad de salida (Entidades de salida) contendrá las Entidades de entrada para coincidencia junto con todas las Entidades candidatas coincidentes que se han encontrado, ordenadas por similitud (tal y como especifica el parámetro Más o menos similar). El número de coincidencias devuelto se basa en el valor del parámetro Número de resultados.
Potenciales aplicaciones
- La herramienta Búsqueda por similitud se puede usar para buscar otras ciudades parecidas a la suya en cuanto a población, educación y proximidad a determinadas ofertas de ocio.
- Puede que los responsables municipales quieran promocionar su ciudad a potenciales empresas para incrementar los ingresos procedentes de impuestos. La herramienta Búsqueda por similitud les ayudará a identificar otras poblaciones como las suyas para que puedan compararse en términos de atributos atractivos (como una tasa de delincuencia baja o un crecimiento rápido). También pueden estar interesados en encontrar lugares como los suyos, pero de mayor o menor tamaño (similitud de coseno). Saber que se parecen a lugares más pequeños o más grandes que han tenido buena acogida entre las empresas a las que desean atraer les permitirá distinguir las similitudes haciendo énfasis en las ventajas de ser pequeños (menos congestión, ambiente más acogedor) o de ser más grandes (más clientes potenciales). Estos responsables también pueden estar interesados en ciudades completamente distintas de las suyas. Si alguna de estas ciudades que se parecen poco a las suyas supone una competencia para las empresas que desean seducir, este análisis les proporciona la información que necesitan para presentar una comparativa.
- Los gestores de recursos humanos pueden estar interesados en justificar la escala salarial de su empresa. Cuando hayan identificado las ciudades que son parecidas en términos de población, coste de vida y servicios, podrá analizar la escala salarial de dichas ciudades para ver si se siguen los mismos parámetros.
- Un analista especializado de delincuencia puede usar la base de datos para comprobar si un delito forma parte de una tendencia o patrón a mayor escala.
- Por ejemplo, un programa extraescolar de fomento del deporte tuvo una aceptación excelente en la ciudad A. Los promotores quieren encontrar otras ciudades de características parecidas para implantar el mismo programa.
- Un departamento policial ha descubierto varias zonas donde se cosechan o fabrican distintas drogas. La identificación de zonas con características similares puede ayudarles en la realización de otras búsquedas en el futuro.
- Una gran cadena de minoristas cuenta con tiendas con un porcentaje de ventas muy elevado y otras con un índice muy bajo. La búsqueda de lugares con unas características demográficas y contextuales parecidas (accesibilidad, visibilidad, negocios complementarios, etc.) les ayudará a identificar cuáles son los mejores emplazamientos para abrir una nueva tienda.
Métodos de geocodificación
La geocodificación puede estar basada en valores de atributos, valores de atributos clasificados, o perfiles de atributos (similitud de coseno). A continuación se describe el algoritmo empleado para cada uno de estos métodos. Para todos los métodos, si existe más de una opción Entidades de entrada para coincidencia, los atributos de todas las entidades se promedian para crear una entidad de destino compuesta que se usará en el proceso de coincidencia:
Valores de atributos
Cuando se selecciona ATTRIBUTE_VALUES para el parámetro Método de coincidencia, la herramienta estandariza primero todos los Atributos de interés. A continuación, para cada candidato resta los valores estandarizados de los de destino, cuadra las diferencias y suma las diferencias cuadradas. Esta suma se convierte en el índice de similitud para ese candidato. Cuando todos los candidatos se han procesado, se clasifican del índice más pequeño (más similar) al índice más alto (menos similar).
La estandarización de los valores de atributos implica una transformación z en la que cada valor se resta del promedio para todos los valores y se divide por la desviación estándar de todos los valores. La estandarización pone todos los atributos en la misma escala aunque estén representados por tipos de números muy diferentes: tasas (número de 0 a 1,0), población (valores superior a 1 millón) y distancias (kilómetros, por ejemplo).
Valores de atributo clasificados
Cuando se selecciona RANKED_ATTRIBUTE_VALUES para el parámetro Método de coincidencia, la herramienta empezará a clasificar cada uno de los Atributos de interés, tanto para la entidad de destino como para todos los candidatos. A continuación, para cada candidato se suma la diferencia cuadrada de cada atributo en relación con la entidad de destino. Si el valor de la población para el destino es el décimo mayor de todos los candidatos, y la población del candidato que se está teniendo en cuenta es la decimoquinta mayor, la suma de la diferencia cuadrada de población de clasificación de este candidato sería 10 - 15 = -5 y -5**2 es 25. La suma de las diferencias cuadradas de clasificación para todos los Atributos de interés se convierte en el índice de similitud de este candidato. Cuando todos los candidatos se han procesado, se clasifican del índice más pequeño (más similar) al índice más alto (menos similar).
Perfiles de atributos
Cuando se selecciona ATTRIBUTE_PROFILES para el parámetro Método de coincidencia, la herramienta estandariza primero todos los Atributos de interés (se requieren como mínimo dos Atributos de interés para este método). A continuación utiliza las matemáticas de similitud de coseno para comparar el vector de los atributos estandarizados de cada candidato con el vector de los atributos estandarizados de la entidad de destino que se busca. La similitud de coseno de dos vectores, A y B, se calcula como:
A la similitud de coseno no le afecta la coincidencia de las magnitudes de atributo, sino que este método se centra más bien en las relaciones entre los atributos. Si ha creado un perfil (gráfico de líneas) de los atributos estandarizados en los vectores que se están comparando (el destino y uno de los candidatos), observará perfiles muy similares o bien perfiles muy diferentes:
El índice de similitud de coseno oscila entre 1,0 (similitud perfecta) y -1,0 (disimilitud perfecta) y se notifica en el campo SIMINDEX (Similitud de coseno). Este método de similitud se utiliza para encontrar lugares que tienen las mismas características pero quizá una mayor o menor escala.
Mejores prácticas
Representación cartográfica de patrones de similitud
Si establece el parámetro Número de resultados en un valor muy grande (igual o mayor que el número de entidades de Entidades candidatas), la herramienta clasificará a todos los candidatos. La salida de este análisis mostrará el patrón espacial de similitud. Tenga en cuenta que cuando clasifique a todos los candidatos, obtendrá información sobre la similitud y la disimilitud.
Variables espaciales incluidas
Supongamos que conoce las ubicaciones (áreas de polígono) donde una especie concreta en peligro de extinción se está recuperando bien y quiere buscar otras ubicaciones donde dicha población animal también esté prosperando. Debería buscar zonas parecidas a las áreas donde la recuperación está teniendo éxito, pero también deberá buscar zonas lo suficientemente extensas y compactas para garantizar el éxito de la especie. Para este análisis puede calcular una métrica de compactación para cada área poligonal (las mediciones comunes de compactación se basan en el área de un polígono en relación al área de un círculo con el mismo perímetro). A continuación puede incluir su medición de compactación y un atributo que refleje el tamaño del polígono (Shape_Area) en el parámetro Campos para añadir a la salida cuando ejecute la herramienta Búsqueda por similitud. El ordenamiento de las diez principales coincidencias de solución tanto en términos de compactación y área le ayudará a identificar las ubicaciones más adecuadas para la reintroducción de especies animales.
Quizá es un minorista interesado en crecer. Si tiene algunas tiendas con un excelente nivel de ventas, puede usar atributos que reflejen las características de éxito clave para ayudar a buscar ubicaciones candidatas para la expansión. Supongamos que los productos que comercializa tienen mejor acogida entre los estudiantes universitarios y quiere evitar zonas cercanas a sus tiendas o a la competencia. Antes de ejecutar la herramienta Búsqueda por similitud puede usar la herramienta Cerca para crear sus variables espaciales: distancia a las universidades o lugares con alta densidad de universitarios, distancia a las tiendas existentes, y distancia a la competencia. A continuación puede incluir estas variables espaciales en el parámetro Campos para añadir a la salida cuando ejecute la herramienta Búsqueda por similitud.