Test Kołmogorowa-Smirnowa

Wykres przedstawiający przykład testu Kołmogorowa-Smirnowa

Test Kołmogorowa-Smirnowa – test nieparametryczny używany do porównywania rozkładów jednowymiarowych cech statystycznych. Istnieją dwie główne wersje tego testu – dla jednej próby i dla dwóch prób.

Test dla jednej próby (zwany też testem zgodności λ Kołmogorowa) sprawdza, czy rozkład w populacji dla pewnej zmiennej losowej różni się od założonego rozkładu teoretycznego, gdy znana jest jedynie pewna skończona liczba obserwacji tej zmiennej (próba statystyczna). Często wykorzystywany jest on w celu sprawdzenia, czy zmienna ma rozkład normalny. Dla celów testowania normalności zostały dokonane w teście drobne usprawnienia, znane jako test Lillieforsa.

Istnieje też wersja testu dla dwóch prób, pozwalająca na porównanie rozkładów dwóch zmiennych losowych. Jego zaletą jest wrażliwość zarówno na różnice w położeniu, jak i w kształcie dystrybuanty empirycznej porównywanych próbek.

Statystyka Kołmogorowa-Smirnowa

Dystrybuanta empiryczna F n {\displaystyle F_{n}} dla n-elementowej próby jest zdefiniowana jako funkcja:

F n ( x ) = 1 n i = 1 n I X i x , {\displaystyle F_{n}(x)={\frac {1}{n}}\sum _{i=1}^{n}I_{X_{i}\leqslant x},}

gdzie:

  • X i {\displaystyle X_{i}} to wartość zmiennej X {\displaystyle X} dla i {\displaystyle i} -tej obserwacji.
  • I X i x {\displaystyle I_{X_{i}\leqslant x}} to funkcja charakterystyczna (tu: przyjmująca wartość jeden gdy X i x {\displaystyle X_{i}\leqslant x} i zero w przeciwnym wypadku).

Statystyka Kołmogorowa-Smirnowa dla danej dystrybuanty teoretycznej F ( x ) {\displaystyle F(x)} jest dana wzorem:

D n = sup x | F n ( x ) F ( x ) | . {\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|.}

Na mocy twierdzenia Gliwienki-Cantellego, jeśli próba pochodzi z rozkładu o dystrybuancie F ( x ) , {\displaystyle F(x),} to D n {\displaystyle D_{n}} dąży prawie wszędzie do zera. Kołmogorow wzmocnił ten wynik stwarzając efektywną metodę oceny tej zbieżności (zobacz niżej). Twierdzenie Donskera dostarcza jednak jeszcze silniejszego wyniku.

Rozkład Kołmogorowa

Rozkład Kołmogorowa to rozkład zmiennej losowej

K = sup t [ 0 , 1 ] | B ( t ) | , {\displaystyle K=\sup _{t\in [0,1]}|B(t)|,}

gdzie B ( t ) {\displaystyle B(t)} jest mostem Browna. Dystrybuanta K {\displaystyle K} jest dana przez

Pr ( K x ) = 1 2 i = 1 ( 1 ) i 1 e 2 i 2 x 2 = 2 π x i = 1 e ( 2 i 1 ) 2 π 2 / ( 8 x 2 ) . {\displaystyle \operatorname {Pr} (K\leqslant x)=1-2\sum _{i=1}^{\infty }(-1)^{i-1}e^{-2i^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{i=1}^{\infty }e^{-(2i-1)^{2}\pi ^{2}/(8x^{2})}.}

Test dla jednej próby

W warunkach hipotezy zerowej, gdy próba pochodzi z rozkładu teoretycznego F ( x ) , {\displaystyle F(x),} wówczas:

n D n n sup t | B ( F ( t ) ) | {\displaystyle {\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\sup _{t}|B(F(t))|}

(zbieżność według rozkładu), gdzie B ( t ) {\displaystyle B(t)} jest mostem Browna.

Jeśli F {\displaystyle F} jest ciągła, wówczas w warunkach hipotezy zerowej n D n {\displaystyle {\sqrt {n}}D_{n}} dąży do rozkładu Kołmogorowa, niezależnie od F . {\displaystyle F.} Ten wynik znany jest też jako twierdzenie Kołmogorowa.

Test Kołmogorowa-Smirnowa jest konstruowany z użyciem obszaru krytycznego rozkładu Kołmogorowa.

Hipoteza zerowa jest odrzucana na poziomie α , {\displaystyle \alpha ,} jeśli

n D n > K α , {\displaystyle {\sqrt {n}}D_{n}>K_{\alpha },}

gdzie K α {\displaystyle K_{\alpha }} jest dane przez:

Pr ( K K α ) = 1 α . {\displaystyle \operatorname {Pr} (K\leqslant K_{\alpha })=1-\alpha .}

Asymptotyczna moc tego testu wynosi 1. Jeśli forma lub parametry F ( x ) {\displaystyle F(x)} są wyznaczane z X i , {\displaystyle X_{i},} nierówność może nie być prawdziwa. W tym przypadku konieczne jest zastosowanie metody Monte Carlo lub innych algorytmów.

Bardziej znaną formą tego testu jest:

D n > K α n . {\displaystyle D_{n}>{\frac {K_{\alpha }}{\sqrt {n}}}.}

Test dla dwóch prób

Test Kołmogorowa-Smirnowa może być także użyty do sprawdzenia, czy dwa jednowymiarowe rozkłady prawdopodobieństwa różnią się od siebie. W takim przypadku statystyką Kołmogorowa-Smirnowa jest:

D n , n = sup x | F n ( x ) F n ( x ) | , {\displaystyle D_{n,n'}=\sup _{x}|F_{n}(x)-F_{n'}(x)|,}

a hipoteza zerowa jest odrzucana na poziomie α , {\displaystyle \alpha ,} gdy

n n n + n D n , n > K α . {\displaystyle {\sqrt {\frac {nn'}{n+n'}}}D_{n,n'}>K_{\alpha }.}

Przedział ufności dla kształtu dystrybuanty

Chociaż test Kołmogorowa-Smirnowa jest zwykle używany do sprawdzania, czy dana dystrybuanta teoretyczna F ( x ) {\displaystyle F(x)} opisuje rozkład populacji, z której wylosowano próbę o dystrybuancie empirycznej F n ( x ) , {\displaystyle F_{n}(x),} jednak procedura może być odwrócona w celu uzyskania przedziału ufności dla samej funkcji F ( x ) . {\displaystyle F(x).} Wybierając wartość krytyczną dla statystyki testowej D α {\displaystyle D_{\alpha }} taką, że P ( D n > D α ) = α , {\displaystyle P(D_{n}>D_{\alpha })=\alpha ,} uzyskujemy pas o promieniu D α {\displaystyle D_{\alpha }} wokół F n ( x ) , {\displaystyle F_{n}(x),} który całkowicie zawiera F ( x ) {\displaystyle F(x)} z prawdopodobieństwem 1 α . {\displaystyle 1-\alpha .}

Zobacz też

Bibliografia

  • W.T. Eadie, D. Drijard, F.E. James, M. Roos, B. Sadoulet: Statistical Methods in Experimental Physics. Amsterdam: North-Holland, 1971, s. 269–271.
  • Alan Stuart, Keith Ord, Steven Arnold: Kendall’s Advanced Theory of Statistics. T. 2A. London: Arnold, a member of the Hodder Headline Group, 1999, s. 25.37–25.43.

Linki zewnętrzne

  • Krótkie wprowadzenie (ang.)
  • Wyjaśnienie testu K-S (ang.)
  • Implementacja testów dla jednej i dwóch prób w JavaScripcie (ang.)
  • Kalkulator online z testem K-S (ang.)
Encyklopedie internetowe (non-parametric test):
  • Catalana: 0063141