ギャップ度GAPの定義
GAP法では、ギャップ度GAPを利用します。
GAPは、正値のデータが値順に並んだデータセットにおいて次のように定義されます。
隣接データの値をA, Bとし、 A ≤ B のとき、GAP = B / A (定義により GAP ≥ 1)。
GAP法の基本手続き
1)正値のデータからなるデータセットで、システムがデータを値順に並べる。
2)システムが値の上位集団で最大GAPを持つ組を見つけ、その間を境に上位のデータを外れ値候補とする。
3)分析者が、最大GAPの値その他を参考に、候補を外れ値とするかどうかを判断する。
4−1)外れ値と判断した場合、データセットからこれらを除外した後、手続き2に戻る。
4−2)外れ値としないと判断した場合、手続きは終了する。
特性値S
基本手続きは単変量で、しかもデータの順番に意味がないデータセットでのみ有効です。
そうでないデータセットでは、次のような特性における外れ値の有無が問題となります。
a. データの順番に意味のある時系列データセットでは、データの個々の値ではなく、前後のデータの値との関係。
b. 多変量のデータセットでは、個々の変量の値ではなく、多変量の値の組み合わせ。
この場合、元のデータセットからこうした特性を数値化して新たなデータセットを作成します。
こうした特性を数値化したものを特性値S、特性値Sからなるデータセットを「特性値データセット」と呼びます。
特性値Sの算出の方法は一意には定まりません。問題の性格に合わせて個別に考案します。
DSファイルのCheckシートにおける特性値Sの定義
TimeCheck:S = 測位定刻からの遅れ時間
HeightCheck:S = 1測位点(あるいは指定した数までの隣接測位点集団)の前後の標高差の積の絶対値
RemoteCheck:S = 時間的に連続する2測位点間の距離
GAP法の一般化手続き
Time/HeightCheckでは、特性値が元データセットの要素(群)に対応しており、次の一般化手続きを適用できます。
0)システムが元データセットから特性値データセットを作成する。
1)システムが特性値データセットのデータを値順に並べる。
2)システムが値の上位集団の中で最大GAPを持つ組を見つけ、その間を境に上位のデータをすべて外れ値候補とする。
3)分析者が、最大GAPの値その他を参考に、候補を外れ値とするかどうかを判断する。
4−1)外れ値と判断した場合、元データセットから対応する要素を除外して、手続き0に戻る。
4−2)外れ値と判断しなかった場合、手続きは終了する。
GAP法の特殊手続き
RemoteCheckでは、特性値が元データセットの要素(群)に対応していないため、一般化手続きは適用できません。
このため、手続き3以降、特性値の性格に応じた個別の特殊な手続きが必要になります。
3)システムが外れ値候補となった距離を持つ2点間で、元データセットを部分集団に分割する。
4)システムが部分集団中、少数の要素からなる集団を孤立集団として除外候補とし、色分けして平面図に表示する。
5)分析者が、平面図を参考に、除外候補を除外するかどうかを個別に判断する。
6−1)除外候補のすべてまたは一部の除外を判断した場合、除外後、手続き0に戻る。
6−2)どれも除外しないと判断した場合、手続きは終了する。