HOME/Data Tools/ Copyright@Hirofumi Hirakawa. All Rights Reserved. 更新: 2025年04月24日

GPSデータ解析システム TimelineAnalyser

subtitle English

外れ値データの除外:GAP法

GAP法は、外れ値を除外するための手続きです。DSファイルのCheckシートで使われています。

ギャップ度GAPの定義
GAP法では、ギャップ度GAPを利用します。
GAPは、正値のデータが値順に並んだデータセットにおいて次のように定義されます。
隣接データの値をA, Bとし、 A ≤ B のとき、GAP = B / A (定義により GAP ≥ 1)。

GAP法の基本手続き
1)正値のデータからなるデータセットで、システムがデータを値順に並べる。
2)システムが値の上位集団で最大GAPを持つ組を見つけ、その間を境に上位のデータを外れ値候補とする。
3)分析者が、最大GAPの値その他を参考に、候補を外れ値とするかどうかを判断する。
4−1)外れ値と判断した場合、データセットからこれらを除外した後、手続き2に戻る。
4−2)外れ値としないと判断した場合、手続きは終了する。

特性値S
基本手続きは単変量で、しかもデータの順番に意味がないデータセットでのみ有効です。
そうでないデータセットでは、次のような特性における外れ値の有無が問題となります。
 a. データの順番に意味のある時系列データセットでは、データの個々の値ではなく、前後のデータの値との関係。
 b. 多変量のデータセットでは、個々の変量の値ではなく、多変量の値の組み合わせ。
この場合、元のデータセットからこうした特性を数値化して新たなデータセットを作成します。
こうした特性を数値化したものを特性値S、特性値Sからなるデータセットを「特性値データセット」と呼びます。
特性値Sの算出の方法は一意には定まりません。問題の性格に合わせて個別に考案します。

DSファイルのCheckシートにおける特性値Sの定義
TimeCheck:S = 測位定刻からの遅れ時間
HeightCheck:S = 1測位点(あるいは指定した数までの隣接測位点集団)の前後の標高差の積の絶対値
RemoteCheck:S = 時間的に連続する2測位点間の距離

GAP法の一般化手続き
Time/HeightCheckでは、特性値が元データセットの要素(群)に対応しており、次の一般化手続きを適用できます。
0)システムが元データセットから特性値データセットを作成する。
1)システムが特性値データセットのデータを値順に並べる。
2)システムが値の上位集団の中で最大GAPを持つ組を見つけ、その間を境に上位のデータをすべて外れ値候補とする。
3)分析者が、最大GAPの値その他を参考に、候補を外れ値とするかどうかを判断する。
4−1)外れ値と判断した場合、元データセットから対応する要素を除外して、手続き0に戻る。
4−2)外れ値と判断しなかった場合、手続きは終了する。

GAP法の特殊手続き
RemoteCheckでは、特性値が元データセットの要素(群)に対応していないため、一般化手続きは適用できません。
このため、手続き3以降、特性値の性格に応じた個別の特殊な手続きが必要になります。
3)システムが外れ値候補となった距離を持つ2点間で、元データセットを部分集団に分割する。
4)システムが部分集団中、少数の要素からなる集団を孤立集団として除外候補とし、色分けして平面図に表示する。
5)分析者が、平面図を参考に、除外候補を除外するかどうかを個別に判断する。
6−1)除外候補のすべてまたは一部の除外を判断した場合、除外後、手続き0に戻る。
6−2)どれも除外しないと判断した場合、手続きは終了する。

怪しい位置データの除外:短辺長角度法と中点重心乖離法

外れ値除外後、さらに怪しい位置データの除外を行います。
ここで怪しい位置データとは、前後の測位点(群)から見て突出度あるいは乖離度の高いデータです。

●短辺長角度法 Shorter-side Length & Angle Method
突出度の高いデータの抽出に利用します。
特性値(突出度)の定義
 S = min(B, F) x cos(ang/2) ^ (2 ^ (n-1))
  B, F:ある測位点Pからその前後の隣接測位点までの距離。min(B, F): 短辺長
  ang:3測位点がなす角度
  n:分析者が[1-10]の範囲で指定する調整係数(大きいほど、Sに与える角度の効果が短辺長の効果に対し大)
手続き
 分析者はあらかじめ、1回に抽出する突出度上位の測位点数を指定する。
 1)システムが各測位点の突出度を計算する。
 2)システムが突出度の高い測位点を、上位から指定数分ずつ平面図上に表示する。
 3−1)分析者が個別に除外の有無を判断する。除外後、手続き1に戻る。
 3−2)分析者が手続き終了を判断する。

●中点重心乖離法  Middle-point Deviation Method
動物の動きが極端に少なく、測定誤差が極めて大きいナマケモノのデータについて特別に用意した手法です。
特性値(乖離度)の定義
 S = ある測位点Pとその前後の指定数の隣接測位点すべての重心と点Pとの距離をその期間幅で割った値
手続き
 分析者はあらかじめ、1回に抽出する突出度上位の測位点数を指定、さらにオプションで総除外数を指定する。
 1)システムが各測位点の乖離度を計算する。
 2)システムが突出度の高い測位点を、上位から指定数分ずつ平面図上に表示する。
 3−1)総除外数の指定があれば、達成まで表示分を除外後、手続き1に戻る。
 3−2)総除外数の指定がなければ、分析者が除外可否を判断。可なら、除外して手続き1に戻る。否なら手続き終了。

時空間密度法 Time-Space Density Method

時空間密度は次のように定義されます。

時空間密度の定義
時空間密度を、各測位点Pから一定時間内にある測位点のうち、一定距離内にある測位点の割合と定義します。
ここでPは、空間内の点でも時間軸上の点でもあることに注意してください。
この計算に用いる時間と距離をそれぞれ「評価期間」、「評価距離」とします。
 評価期間は分析者が指定します。システムに任せるとデータ間隔の12倍に設定されます。
 評価距離は分析者が指定します。システムに任せるとデータに応じて自動設定されます。

時空間密度の性質
時空間密度は評価期間内の測位点すべてが評価距離内にあると1、評価距離内に1つもないと0になります。
評価時間を固定して評価距離を0から大きくしていくと、時空間密度は増加し、最終的には1になります。
評価距離を固定して評価時間を大きくした場合、時空間密度の増減は状況によって異なります。
このように、評価期間と距離の関係は非対称です。

時空間密度図
時空間密度図では、時空間密度の評価を過去と未来に分けて行い、過去の密度は負値に変換して表現します。
 過去密度は評価期間をPから過去側のみに、未来密度は未来側のみに設定した時空間密度です。
 下の図では評価距離を3つ指定して、それぞれに対応した時空間密度図を重ね描きしています。
Sample Image

動物の動きと過去・未来の密度との関係
互いに評価距離D以上離れた地域AとBがあり、それぞれの地域は直径Dの円内に収まると想定します。
動物は評価期間T以上滞在後に地域Aを離れ、すぐ地域Bに到着して、ここに期間T以上滞在するとします。
 未来密度の変化
 動物の地域A滞在の残り時間が期間Tを下回った時点で1から減少し始め、地域Aを離れる時点で0近くになります。
 地域Bに近づいてその距離がDを下回ると増加し始め、地域Bに到着した時点で1になります。
 過去密度の変化
 地域Aを離れる時点で1、その後急速に減少して、地域Aから距離D以上離れると0近くになります。
 地域B到着後は密度が顕著に増加し始め、期間Tが経過すると1になり、その後滞在中は1を維持します。
未来あるいは過去の密度が1を維持する時間は、評価期間Tを超えて域内に滞在した時間になります。

単通過と全通過の時空間密度
 先に時空間密度を、ある測位点Pから評価期間内にある測位点の内、評価距離内にある測位点の割合と定義しました。
ここで、ある測位点Pを中心とし、評価距離を半径とする円を「評価円」と呼ぶことにします。
上の定義では、評価期間内に評価円の出入りがあっても、評価円内にある測位点はすべて計算に含めます。
 これに代わって、測位点Pを含む、評価円通過中の測位点だけを考慮する密度を考えます。 これを「単通過」の時空間密度、区別のため当初の定義を「全通過」の時空間密度と呼びます。
 単通過の過去密度では、最後に評価円に入ってから測位点Pに至る測位点だけが考慮の対象になります。 未来密度では、測位点Pを過ぎて評価円を離れるまで測位点だけが考慮の対象になります。
 単全どちらの定義が良いかは、状況(データの質、動物の動き、評価時間、評価距離、分析目的など)次第です。 動物の移動パターンによってはほとんど違いが出ない場合もあります。

データ数に基づく時空間密度
 もう一つ時空間密度を定義します。
 先に時空間密度を、「ある測位点Pから評価期間内にある測位点の内、評価距離内にある測位点の割合」と定義しました。
 この定義では割合計算の母数として、「ある測位点Pから評価期間内にある測位点」の数を用いています。 この数は、データ欠損により減少します。データ欠損が多いと、その分、母数が少なくなるため、計算結果(密度)の解像度が悪くなり、その信頼性は低下します。 このため、母数を一定にすることを考えます。つまり、母数に用いる測位点の必要数を指定して、データ欠損があれば、これを確保するまで評価期間を延長します。 これを仮にデータ数に基づく時空間密度と呼び、区別のため、元の定義による密度を期間長に基づく時空間密度と呼びます。
 欠損がまとまって生じる傾向のあるデータでは、この密度定義は大いに有効です。 なぜなら、前後にどれだけデータ欠損があっても、同じ解像度で各評価点の密度計算ができるからです。 しかし、この定義には実質「時間」の枠がなくなっています。このため、これが「時空間密度」と呼ぶに相応しいか疑問が生じます。 その一方で、時空間密度の発想を離れて、この新たな定義を意味づけることができません(少なくとも現段階では)。 このため、当面はこれを時空間密度の一つとして扱います。
 データ数に基づく時空間密度の定義を独立して意味づけるのが難しいのはおそらく、これがデータ欠損に対する対処、次善策に過ぎないからです。 大きな情報の欠落があってもそれなりの結果を出せることは便利ですが、その利用には注意が必要です。 あくまで期間長に基づく時空間密度の利用が基本と考えた方が良さそうです。

時空間密度法による期間・軌跡分割

時空間密度に基づいて移動を2つの相(「近場移動」と「距離移動)に分割します。
(英語では、この2つをそれぞれLocalized Movement、 Distance Movementと表現することにします。)

2起点距離法 Dual-Anchor Method

2起点距離図を描きます。動物が2つの起点A, Bからどのくらい離れているかを時間軸に沿って示した図です。
直交座標系のX値とY値を使えば位置を特定できますが、この2値で同様の図を描いても動きはよくわかりません。
2起点からの距離で位置は特定できませんが、起点位置の工夫によりこの図だけで動きがかなりよく読み取れます。

重心距離法 Centroid Distance Method

重心距離法は、平均重心距離図により時間軸上で行動範囲の大きさの変化を把握する手法です。

平均重心距離 Average Centroid Distance (ACD)
 定義:ある時間幅(評価期間)に含まれる測位点の平面位置の重心(平均位置)から各測位点への距離の平均。
    ただし、評価期間はデータの時間間隔の整数倍とする。単位はmとする。
 性格:測位点のばらつきの大きさを表す。1次元の値分布の標準偏差に相当。評価期間内の行動範囲の大きさの指標。

平均重心距離図
平均重心距離をデータの時間間隔でずらしながら計算し、時間軸図化したもので、次のような表現の変種があります。
Sample Image
超多重最小平均重心距離図 Super-Multi Minimum ACD (sminACD)
評価期間の異なる最小平均重心距離図を重ねたものです。いつ、どの程度の動きの停滞があったか図から読み取れます。
Sample Image