類似検索(Similarity Search)の詳細

[類似検索(Similarity Search)] ツール は、1 つ以上の照合する入力フィーチャに最も類似している(または、最も類似していない)候補フィーチャを特定します。類似度は、指定した数値属性リスト(対象属性)に基づきます。複数の照合する入力フィーチャを指定した場合、類似度は、対象属性ごとの平均に基づきます。出力フィーチャクラス(出力フィーチャ)には、照合する入力フィーチャに加えて、検出された一致する候補フィーチャがすべて含まれ、類似度の順([最も類似する/最も類似しない] パラメータで指定)に並んでいます。返される一致の数は、[結果の数] パラメータの値に従います。

適用例

照合方法

照合は、属性値、ランク付けされた属性値、または属性プロファイル(コサイン類似度)に基づくことができます。以下では、これらの方法で採用されているアルゴリズムについて説明します。どの方法でも、照合する入力フィーチャが複数存在する場合、すべてのフィーチャの属性の平均が計算されて、照合処理で使用されるコンポジット ターゲット フィーチャが作成されます。平均化された対象属性

属性値

[照合方法] パラメータで ATTRIBUTE_VALUES を選択した場合、このツールは、まず、すべての対象属性を標準化します。次に、候補ごとにターゲットの値から標準化された値を引き、その差分を 2 乗して、それらの値の和を取ります。この和は、この候補の類似度指標になります。すべての候補の処理が完了すると、最も小さい指標を持つ(最も類似する)候補から、最も大きい指標を持つ(最も類似しない)候補まで、ランク付けされます。

詳細詳細:

属性値の標準化には、Z 変換が含まれます。この変換では、すべての値の平均から各値が引かれ、すべての値の標準偏差で割られます。標準化によって、属性が非常に異なる種類の数(比率(0 〜 1.0)、人口(100 万以上)、距離(キロメートルなど))で表されている場合でも、すべての属性が同じスケールで表されます。

ランク付けされた属性値

[照合方法] パラメータで RANKED_ATTRIBUTE_VALUES を選択した場合、ツールは、ターゲット フィーチャとすべての候補の両方に対する各対象属性のランク付けから開始します。候補ごとに、ターゲット フィーチャの各属性について、2 乗差の合計が計算されます。ターゲットの人口値がすべての候補のうちで 10 番目に大きく、着目する候補の人口が 15 番目に大きい場合、その候補の人口ランクの 2 乗差の合計は、10 - 15 = -5、-5**2 を計算して 25 になります。すべての対象属性のランクの 2 乗差の合計が、この候補の類似度指標になります。すべての候補の処理が完了すると、最も小さい指標を持つ(最も類似する)候補から、最も大きい指標を持つ(最も類似しない)候補まで、ランク付けされます。

属性プロファイル

[照合方法] パラメータで ATTRIBUTE_PROFILES を選択すると、ツールは、まず、すべての対象属性を標準化します(この方法では、2 つ以上の対象属性が必要です)。次にツールは、コサイン類似度計算を行って、各候補の標準化された属性のベクトルと、照合されるターゲット フィーチャの標準化された属性のベクトルを比較します。2 つのベクトル、A と B の余弦類似性は、次の式に従って計算されます。

コサイン類似度の式

コサイン類似度は、属性値の大きさの一致には関係しません。この方法では、属性間の関係に焦点が当てられます。比較されるベクトル(ターゲットと候補のうちの 1 つ)で、標準化された属性のプロファイル(折れ線グラフ)を作成すると、非常に類似したプロファイルと非常に異なるプロファイルを確認できます。

属性プロファイル

コサイン類似度指標は、1.0(完全な類似性)から -1.0(完全な相違)までの範囲で、SIMINDEX(余弦類似性)フィールドにレポートされます。この照合方法を使用して、同じ特徴を持つが、おそらく規模がより大きいか小さい場所を検索できます。

ベスト プラクティス

類似パターンのマッピング

[結果の数] パラメータを非常に大きい値(候補フィーチャの数以上)に設定した場合、ツールは、すべての候補をランク付けします。この解析の出力は、空間パターンの類似度を示します。なお、すべての候補をランク付けすると、類似度と相違に関する情報が得られます。

ランク付けされた類似度のマップ

空間変数を含める

特定の絶滅危惧種が生息している場所(ポリゴン エリア)がわかっていて、その種が繁殖できる別の場所を見つけたいとします。現在生息している場所に類似する場所を検索しますが、その場所は、その種が繁殖できるほど大きく、かつコンパクトである必要があります。この解析では、ポリゴン エリアごとにコンパクトさの指標を計算できます(一般に、コンパクトさは、ポリゴンの面積を、それと同じ外周長を持つ円形の面積と比較することによって測定されます)。その後、[類似検索(Similarity Search)] ツールを実行するときに、コンパクトさの測定値とポリゴンのサイズ(Shape_Area)を反映する属性を、[出力に追加するフィールド] パラメータに含めることができます。コンパクトさと面積の両方に関して 上位 10 個の一致結果を並べると、種の再繁殖に最も適した場所を特定できます。

たとえば、ある小売業者が、店舗の展開に関心があるとします。すでに成功している店舗が存在する場合、成功した店舗の主要な特徴を反映する属性を使用して、展開のための候補地を検索できます。販売する製品が大学生に最も人気があり、現在の店舗に近い場所または競合他社に近い場所を避ける必要があるとします。[類似検索(Similarity Search)] ツールを実行する前に、[最近接(Near)] ツールを使用して、空間変数(大学または大学生の人口密度が高い場所までの距離、既存の店舗までの距離、および競合他社までの距離)を作成します。その後、[類似検索(Similarity Search)] ツールを実行するときに、これらの空間変数を [出力に追加するフィールド] パラメータに含めることができます。

5/10/2014