Satz von Sanov

Der Satz von Sanov ist ein Resultat des mathematischen Teilgebiets der Stochastik. Er ist eine zentrale Aussage der Theorie der großen Abweichungen (engl. large deviations theory) und ist eng mit der Informationstheorie verbunden. Der Satz formalisiert die Intuition, dass die Gesamtwahrscheinlichkeit eines seltenen Ereignisses von der Wahrscheinlichkeit des plausibelsten Teilereignisses dominiert wird.[1] Er ist nach dem russischen Mathematiker Ivan Nikolajewitsch Sanov (1919–1968) benannt.[2]

Einleitendes Beispiel

Sei X 1 , X 2 , X 3 , {\displaystyle X_{1},X_{2},X_{3},\dotsc } eine Folge von fairen Münzwürfen, modelliert als i.i.d. Bernoulli-Variablen mit Erfolgswahrscheinlichkeit 1 / 2 , {\displaystyle 1/2,} also X 1 Ber ( 1 / 2 ) {\displaystyle X_{1}\sim \operatorname {Ber} (1/2)} . „Kopf“ entspreche dabei der 1 {\displaystyle 1} , „Zahl“ der 0 {\displaystyle 0} . Das starke Gesetz der großen Zahlen besagt, dass das arithmetische Mittel

S n = 1 n i = 1 n X i {\displaystyle S_{n}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}}

fast sicher gegen den Erwartungswert E [ X 1 ] = E [ X 2 ] = = 1 / 2 {\displaystyle \mathrm {E} [X_{1}]=\mathrm {E} [X_{2}]=\dotsb =1/2} konvergiert. Es trifft aber keine Aussage über die Geschwindigkeit der Konvergenz. Typischerweise wird der Mittelwert nahe bei 1 / 2 {\displaystyle 1/2} sein, es ist aber nicht ausgeschlossen, dass er für ein beliebig großes n {\displaystyle n} immer noch stark vom Grenzwert abweicht, also bspw. S n 2 / 3 {\displaystyle S_{n}\geq 2/3} gilt. Der Satz von Sanov quantifiziert, wie schnell die Wahrscheinlichkeit einer solchen Abweichung gegen 0 {\displaystyle 0} geht. Über das asymptotische Verhalten hinaus kann man sich auch fragen, wie wahrscheinlich der Mittelwert für ein konkretes n {\displaystyle n} abweicht. In seinem berühmten Werk The Doctrine of Chances behandelte Abraham de Moivre beispielsweise ein Gedankenexperiment von 3600 {\displaystyle 3600} Münzwürfen. Wie hoch ist die Wahrscheinlichkeit für S 3600 2 / 3 {\displaystyle S_{3600}\geq 2/3} ?

Solche Fragen lassen sich wie folgt maßtheoretisch formalisieren: Sei P {\displaystyle {\mathcal {P}}} die Menge aller Wahrscheinlichkeitsmaße auf { 0 , 1 } {\displaystyle \{0,1\}} , also die Gesamtheit aller Bernoulli-Verteilungen. Für jede positive ganze Zahl n {\displaystyle n} sei

P ^ n = 1 n i = 1 n δ X i {\displaystyle {\hat {P}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}\delta _{X_{i}}}

die empirische Verteilung der ersten n {\displaystyle n} Münzwürfe, wobei δ x {\displaystyle \delta _{x}} das Dirac-Maß an der Stelle x {\displaystyle x} bezeichne. Es gilt dann stets P ^ n P {\displaystyle {\hat {P}}_{n}\in {\mathcal {P}}} und nach dem Gesetz der großen Zahlen konvergiert P ^ n f.s. Ber ( 1 / 2 ) {\displaystyle {\hat {P}}_{n}\,\xrightarrow {\text{f.s.}} \,\operatorname {Ber} (1/2)} . Außerdem sei Γ = { B e r ( p ) | p 2 / 3 } P {\displaystyle \textstyle \Gamma =\{\mathrm {Ber} (p)\,|\,p\geq 2/3\}\subseteq {\mathcal {P}}} die Teilmenge aller Verteilungen mit Erwartungswert mindestens 2 / 3 {\displaystyle 2/3} . Dann ist die Wahrscheinlichkeit P [ P ^ n Γ ] {\displaystyle \mathrm {P} [{\hat {P}}_{n}\in \Gamma ]} , dass das zufällige Maß P ^ n {\displaystyle {\hat {P}}_{n}} in Γ {\displaystyle \Gamma } liegt, genau die Wahrscheinlichkeit P [ S n 2 / 3 ] {\displaystyle \mathrm {P} [S_{n}\geq 2/3]} .

Endlicher Fall

Sei X {\displaystyle {\mathcal {X}}} eine endliche Menge und P {\displaystyle {\mathcal {P}}} die Menge aller Wahrscheinlichkeitsmaße auf X {\displaystyle {\mathcal {X}}} versehen mit der schwachen Topologie (vgl. Konvergenz in Verteilung). Sei weiter ( X i ) i 1 {\displaystyle (X_{i})_{i\geq 1}} eine Folge von i.i.d. Zufallsvariablen, wobei X 1 P {\displaystyle X_{1}\sim P} gemäß einem festen P P {\displaystyle P\in {\mathcal {P}}} verteilt sei, und sei P ^ n {\displaystyle {\hat {P}}_{n}} die empirische Verteilung von X 1 , , X n {\displaystyle X_{1},\dotsc ,X_{n}} . Für ein Wahrscheinlichkeitsmaß Q P {\displaystyle Q\in {\mathcal {P}}} bezeichne schließlich D ( Q P ) = x X Q ( x ) log Q ( x ) P ( x ) {\displaystyle \textstyle D(Q\|P)=\sum _{x\in {\mathcal {X}}}Q(x)\cdot \log {Q(x) \over P(x)}} die Kullback-Leibler-Divergenz von P {\displaystyle P} zu Q {\displaystyle Q} .

Unter diesen Voraussetzungen besagt der Satz von Sanov, dass für jede Menge Γ P {\displaystyle \Gamma \subseteq {\mathcal {P}}} gilt:[3][4]

inf Q int ( Γ ) D ( Q P ) lim inf n 1 n log ( P [ P ^ n Γ ] ) lim sup n 1 n log ( P [ P ^ n Γ ] ) inf Q cl ( Γ ) D ( Q P ) {\displaystyle -\inf _{Q\in \operatorname {int} (\Gamma )}\,D(Q\|P)\leq \liminf _{n\to \infty }\,{\frac {1}{n}}\log \left(\,\mathrm {P} [{\hat {P}}_{n}\in \Gamma ]\,\right)\leq \limsup _{n\to \infty }\,{\frac {1}{n}}\log \left(\,\mathrm {P} [{\hat {P}}_{n}\in \Gamma ]\,\right)\leq -\inf _{Q\in \operatorname {cl} (\Gamma )}\,D(Q\|P)}

Hierbei ist int ( Γ ) {\displaystyle \operatorname {int} (\Gamma )} das Innere und cl ( Γ ) {\displaystyle \operatorname {cl} (\Gamma )} der Abschluss von Γ {\displaystyle \Gamma } . Falls außerdem die linke und die rechte Seite der Ungleichungskette übereinstimmen, dann existiert der Grenzwert und es gilt:

lim n 1 n log ( P [ P ^ n Γ ] ) = inf Q Γ D ( Q P ) {\displaystyle \lim _{n\to \infty }\,{\frac {1}{n}}\log \left(\,\mathrm {P} [{\hat {P}}_{n}\in \Gamma ]\,\right)=-\inf _{Q\in \Gamma }\,D(Q\|P)}

Bemerkungen

  • Die konkrete Wahl der Basis des Logarithmus ist unerheblich, es muss aber darauf geachtet werden, dass dieselbe wie bei der Divergenz verwendet wird (vgl. Shannon (Einheit)).
  • Aus der Endlichkeit von X {\displaystyle {\mathcal {X}}} und der Stetigkeit von D ( P ) {\displaystyle D(\,\cdot \,\|P)} folgt inf Q cl ( Γ ) D ( Q P ) = inf Q Γ D ( Q P ) {\displaystyle \textstyle \,\inf _{Q\in \operatorname {cl} (\Gamma )}\,D(Q\|P)=\inf _{Q\in \Gamma }\,D(Q\|P)} , das Infimum über das Innere von Γ {\displaystyle \Gamma } kann aber echt größer sein.
  • Falls Γ {\displaystyle \Gamma } konvex ist, dann ist das Maß P = arg min Q Γ D ( Q P ) {\displaystyle \textstyle P^{*}={\arg \min }_{Q\in \Gamma }\,D(Q\|P)} wohldefiniert und wird die Informationsprojektion (engl. information projection) von P {\displaystyle P} auf Γ {\displaystyle \Gamma } genannt.[5]
  • Bis auf sublineare additive Terme im Exponenten (d. h. subexponentielle Faktoren) gilt asymptotisch P [ P ^ n Γ ] e n inf D ( Q P ) {\displaystyle \mathrm {P} [{\hat {P}}_{n}\in \Gamma ]\simeq \mathrm {e} ^{-n\inf D(Q\|P)}} , wenn die Divergenz in Nat angegeben ist. Es lässt sich sogar zeigen:[4] Für jedes n {\displaystyle n} gilt P [ P ^ n Γ ] ( n + 1 ) | X | e n inf D ( Q P ) . {\displaystyle \mathrm {P} [{\hat {P}}_{n}\in \Gamma ]\leq (n+1)^{|{\mathcal {X}}|}\cdot \mathrm {e} ^{-n\inf D(Q\|P)}.}
  • Das empirische Maß P ^ n {\displaystyle {\hat {P}}_{n}} kann nicht beliebige Werte annehmen, sondern liegt stets in P n = { Q P | x X : n Q ( x ) { 0 , 1 , , n } } {\displaystyle \textstyle {\mathcal {P}}_{n}=\{Q\in {\mathcal {P}}\,|\,\forall x\in {\mathcal {X}}\colon \,nQ(x)\in \{0,1,\dotsc ,n\}\}} , die Elemente von P n {\displaystyle {\mathcal {P}}_{n}} werden Typen genannt. Die Wahrscheinlichkeit, dass P ^ n {\displaystyle {\hat {P}}_{n}} ein konkreter Typ Q P n {\displaystyle Q\in {\mathcal {P}}_{n}} ist, lässt sich durch ( n + 1 ) | X | e n D ( Q P ) P [ P ^ n = Q ] e n D ( Q P ) {\displaystyle (n+1)^{-|{\mathcal {X}}|}\mathrm {e} ^{-nD(Q\|P)}\leq \mathrm {P} [{\hat {P}}_{n}=Q]\leq \mathrm {e} ^{-nD(Q\|P)}} abschätzen.[4]

Insgesamt wird also die Wahrscheinlichkeit P [ P ^ n Γ ] {\displaystyle \mathrm {P} [{\hat {P}}_{n}\in \Gamma ]} von demjenigen Typ Q Γ {\displaystyle Q\in \Gamma } dominiert, der die kleinste Divergenz von der „wahren“ Verteilung P {\displaystyle P} hat. Jeder andere Typ Q {\displaystyle Q'} mit D ( Q P ) D ( Q P ) + ε {\displaystyle D(Q'\|P)\geq D(Q\|P)+\varepsilon } hat eine exponentiell kleinere Wahrscheinlichkeit.

Allgemeiner Fall

Der Satz von Sanov lässt sich erheblich verallgemeinern, insbesondere ist die Endlichkeit der Grundmenge unnötig. Sei nun X {\displaystyle {\mathcal {X}}} ein beliebiger polnischer Raum (bspw. der R d {\displaystyle \mathbb {R} ^{d}} ), P {\displaystyle {\mathcal {P}}} die Menge aller Wahrscheinlichkeitsmaße auf X {\displaystyle {\mathcal {X}}} mit der schwachen Topologie und wieder ( X i ) i 1 {\displaystyle (X_{i})_{i\geq 1}} eine Folge von i.i.d. X {\displaystyle {\mathcal {X}}} -wertigen Zufallsvariablen mit X 1 P {\displaystyle X_{1}\sim P} für ein P P {\displaystyle P\in {\mathcal {P}}} . Jedes absolut stetige Maß Q P {\displaystyle Q\ll P} besitzt eine Radon-Nikodým-Dichte f {\displaystyle \textstyle f} bezüglich P {\displaystyle P} , die Divergenz ist dann durch D ( Q P ) = f log f d P {\displaystyle \textstyle D(Q\|P)=\int f\log f\,\mathrm {d} P} erklärt, für alle übrigen Maße kann man gefahrlos D ( Q P ) = + {\displaystyle D(Q\|P)=+\infty } setzen. Beachte, dass die empirischen Maße P ^ n P {\displaystyle {\hat {P}}_{n}\ll P} offensichtlich immer absolut stetig bezüglich P {\displaystyle P} sind.

Mit diesen angepassten Voraussetzungen besagt der Satz von Sanov erneut, dass für jede Menge Γ P {\displaystyle \Gamma \subseteq {\mathcal {P}}} gilt:[1][3]

inf Q int ( Γ ) D ( Q P ) lim inf n 1 n log ( P [ P ^ n Γ ] ) lim sup n 1 n log ( P [ P ^ n Γ ] ) inf Q cl ( Γ ) D ( Q P ) {\displaystyle -\inf _{Q\in \operatorname {int} (\Gamma )}\,D(Q\|P)\leq \liminf _{n\to \infty }\,{\frac {1}{n}}\log \left(\,\mathrm {P} [{\hat {P}}_{n}\in \Gamma ]\,\right)\leq \limsup _{n\to \infty }\,{\frac {1}{n}}\log \left(\,\mathrm {P} [{\hat {P}}_{n}\in \Gamma ]\,\right)\leq -\inf _{Q\in \operatorname {cl} (\Gamma )}\,D(Q\|P)}

Falls Γ = cl ( int ( Γ ) ) {\displaystyle \Gamma =\operatorname {cl} (\operatorname {int} (\Gamma ))} der Abschluss seines Inneren ist, dann gilt:

lim n 1 n log ( P [ P ^ n Γ ] ) = inf Q Γ D ( Q P ) {\displaystyle \lim _{n\to \infty }\,{\frac {1}{n}}\log \left(\,\mathrm {P} [{\hat {P}}_{n}\in \Gamma ]\,\right)=-\inf _{Q\in \Gamma }\,D(Q\|P)}

Literatur

  • Thomas M. Cover, Joy A. Thomas: Elements of Information Theory. 2. Auflage. John Wiley & Sons, Hoboken, NJ, USA 2006. 
  • Amir Dembo, Ofer Zeitouni: Large Deviations Techniques and Applications (= Stochastic Modelling and Applied Probability. Nr. 38). 2. Auflage. Springer, Berlin & Heidelberg, Deutschland 2010, doi:10.1007/978-3-642-03311-7. 
  • Jean-Dominique Deuschel, Daniel W. Stroock: Large Deviations (= Pure and Applied Mathematics. Nr. 137). Academic Press, Boston, MA, USA 1989, doi:10.1016/S0079-8169(08)61645-1. 

Einzelnachweise

  1. a b Ramon van Handel: Stochastic Analysis Seminar – Lecture 3. Sanov’s Theorem. In: Princeton.edu. Princeton University, Princeton, NJ, USA, 10. Oktober 2013, archiviert vom Original am 29. November 2020; abgerufen am 6. Januar 2023. 
  2. Hugo Touchette: Large Deviation Theory: History, Sources, References, and Pointers. In: AppliedMaths.SUN.ac.za. Division of Applied Mathematics, Stellenbosch University, Stellenbosch, South Africa, abgerufen am 6. Januar 2023. 
  3. a b Ivan N. Sanov: On the Probability of Large Deviations of Random Variables. In: North Carolina State University, Departement of Statistics (Hrsg.): Institute of Statistics Mimeo Series. Nr. 192, 1958 (englisch, ncsu.edu [abgerufen am 6. Januar 2023] russisch: О вероятности больших отклонений случайных величин. 1957. Übersetzt von Dana E.A. Quade). 
  4. a b c Thomas M. Cover, Joy A. Thomas: Elements of Information Theory. 2. Auflage. John Wiley & Sons, Hoboken, NJ, USA 2006, S. 362 f. 
  5. Imre Csiszár, František Matúš: Information Projections Revisited. In: IEEE Transaction on Information Theory. Band 49, Nr. 6, 2003, S. 1474–1490, doi:10.1109/TIT.2003.810633.