外れ値
外れ値(はずれち、英: outlier)は、統計学において、他の値から大きく外れた値のこと。測定ミス・記録ミス等に起因する異常値とは概念的には異なるが、実用上は区別できないこともある。ロバスト統計では、外れ値に対しての頑健性確保を重視する。
英語のoutlierには「他より著しく異なるため一般的結論を導けない人や物や事実」を指す意味もある[1][2]。
検定
外れ値かどうか検定したい標本について、偏差を不偏標準偏差で割った検定統計量
を求め(x1 は標本値、μ は平均、σ は標準偏差)、この値(両側検定をする場合はこの絶対値)が有意点より大きいかどうかで検定する。
簡単な方法では、2または3を有意点とする。つまり、μ ± 2–3 σ の外なら外れ値とする。
スミルノフ・グラブス検定
より精密には、正規分布を仮定して、スミルノフ・グラブス (Smirnov‐Grubbs) 検定を使う。サンプルサイズを n、所要の有意水準を α、自由度 n - 2 のt分布の α / n × 100 パーセンタイルを t として、
を有意点とする。平均値から最も外れている1つのデータのみを検定し、それが外れ値と判定されたら、それを除外した n - 1 のサンプルサイズにおいて最も外れているデータを検定し、以下、外れ値が検出されなくなるまでこれを繰り返す。
トンプソン検定
トンプソン (Thompson) 検定では、
を使う。計算式の都合上、スミルノフ・グラブス検定とは逆に、標本値の検定統計量 τ1 から t1 を経て有意水準 α1 を求めることが多い。n が十分大きければスミルノフ・グラブス検定と同じ結果になる。
脚注
[脚注の使い方]
関連項目
外部リンク
ウィキメディア・コモンズには、外れ値に関連するカテゴリがあります。
- スミルノフ・グラブス検定の有意点
| |||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
標本調査 | |||||||||||||||
記述統計学 |
| ||||||||||||||
推計統計学 |
| ||||||||||||||
ベイズ統計学 |
| ||||||||||||||
相関 | |||||||||||||||
モデル | |||||||||||||||
回帰 |
| ||||||||||||||
分類 |
| ||||||||||||||
教師なし学習 |
| ||||||||||||||
統計図表 | |||||||||||||||
生存時間分析 | |||||||||||||||
歴史 |
| ||||||||||||||
応用 | |||||||||||||||
出版物 |
| ||||||||||||||
全般 | |||||||||||||||
その他 | |||||||||||||||
カテゴリ |