Entropia warunkowa

Entropia warunkowa – wartość używana w teorii informacji. Mierzy, ile wynosi entropia nieznanej zmiennej losowej Y , {\displaystyle Y,} jeśli wcześniej znamy wartość innej zmiennej losowej X . {\displaystyle X.} Zapisuje się ją jako H ( Y | X ) {\displaystyle H(Y|X)} i tak jak inne entropie mierzy w bitach.

Intuicyjnie entropia ta mierzy, o ile entropia pary zmiennych X {\displaystyle X} i Y {\displaystyle Y} jest większa od entropii samej zmiennej X , {\displaystyle X,} czyli ile dodatkowej informacji dostajemy na podstawie zmiennej Y , {\displaystyle Y,} jeśli znamy zmienną X . {\displaystyle X.}

Definicja

Formalnie dla dyskretnych zmiennych losowych X {\displaystyle X} i Y {\displaystyle Y} entropia Y {\displaystyle Y} warunkowana przez X {\displaystyle X} może być zdefiniowana jako:

H ( Y | X ) = x X p ( x ) H ( Y | x ) , {\displaystyle H(Y|X)=\sum _{x\in X}p(x)H(Y|x),}

gdzie:

H ( Y | x ) = y Y p ( y | x ) log 1 p ( y | x ) . {\displaystyle H(Y|x)=\sum _{y\in Y}p(y|x)\log {\frac {1}{p(y|x)}}.}

A zatem:

H ( Y | X ) = x X p ( x ) y Y p ( y | x ) log 1 p ( y | x ) . {\displaystyle H(Y|X)=\sum _{x\in X}p(x)\sum _{y\in Y}p(y|x)\log {\frac {1}{p(y|x)}}.}

Wzór ten można zapisać również jako:

H ( Y | X ) = y Y x X p ( x , y ) log p ( x , y ) p ( x ) . {\displaystyle H(Y|X)=-\sum _{y\in Y}\sum _{x\in X}p(x,y)\log {\frac {p(x,y)}{p(x)}}.}

W przypadku ciągłych rozkładów sumowanie należy zastąpić przez całkowanie:

H ( Y | X ) = Y X p ( x , y ) log p ( x , y ) p ( x ) d x d y , {\displaystyle H(Y|X)=-\int \limits _{Y}\int \limits _{X}p(x,y)\log {\frac {p(x,y)}{p(x)}}\;dx\,dy,}

gdzie p ( x , y ) {\displaystyle p(x,y)} oznacza funkcję gęstości prawdopodobieństwa pary zmiennych, a p ( x ) {\displaystyle p(x)} jest gęstością prawdopodobieństwa X . {\displaystyle X.}

Alternatywnie tę samą definicję można zapisać jako

H ( Y | X ) = H ( X , Y ) H ( X ) , {\displaystyle H(Y|X)=H(X,Y)-H(X),}

gdzie H ( X , Y ) {\displaystyle H(X,Y)} oznacza entropię produktową X {\displaystyle X} i Y , {\displaystyle Y,} a H ( X ) {\displaystyle H(X)} oznacza entropię X . {\displaystyle X.}

Jeśli X {\displaystyle X} i Y {\displaystyle Y} są niezależne, poznanie X {\displaystyle X} nie daje żadnych informacji o Y . {\displaystyle Y.} Wtedy entropia warunkowa jest po prostu równa entropii Y : {\displaystyle Y{:}} H ( Y | X ) = H ( Y ) . {\displaystyle H(Y|X)=H(Y).}

Z drugiej strony, jeśli Y {\displaystyle Y} jest funkcją X , {\displaystyle X,} to poznanie X {\displaystyle X} całkowicie determinuje wartość Y . {\displaystyle Y.} Wtedy H ( Y | X ) = 0. {\displaystyle H(Y|X)=0.}

Własności

Dla dowolnych X {\displaystyle X} i Y {\displaystyle Y} zachodzi[1]:

H ( Y | X ) = H ( X , Y ) H ( X ) {\displaystyle H(Y|X)=H(X,Y)-H(X)} (reguła łańcuchowa dla entropii)

H ( Y | X ) H ( Y ) {\displaystyle H(Y|X)\leqslant H(Y)}

H ( Y | X ) = H ( X | Y ) H ( X ) + H ( Y ) {\displaystyle H(Y|X)=H(X|Y)-H(X)+H(Y)} (twierdzenie Bayesa dla entropii)

H ( X , Y ) = H ( X | Y ) + H ( Y | X ) + I ( X ; Y ) {\displaystyle H(X,Y)=H(X|Y)+H(Y|X)+I(X;Y)}

H ( X , Y ) = H ( X ) + H ( Y ) I ( X ; Y ) {\displaystyle H(X,Y)=H(X)+H(Y)-I(X;Y)}

I ( X ; Y ) H ( X ) {\displaystyle I(X;Y)\leqslant H(X)}

gdzie I ( X ; Y ) {\displaystyle I(X;Y)} to informacja wzajemna między X {\displaystyle X} i Y . {\displaystyle Y.} Jeśli X {\displaystyle X} i Y {\displaystyle Y} zdarzeniami niezależnymi:

H ( Y | X ) = H ( Y ) {\displaystyle H(Y|X)=H(Y)}

Pomimo iż wartość wyrażenia H ( Y | X = x ) {\displaystyle H(Y|X=x)} może być zarówno większa, jak i mniejsza od H ( Y ) , {\displaystyle H(Y),} entropia warunkowa H ( Y | X ) {\displaystyle H(Y|X)} jest zawsze niewiększa niż H ( Y ) . {\displaystyle H(Y).} Wartość H ( Y | X = x ) {\displaystyle H(Y|X=x)} równa jest zero w szczególnym przypadku, gdy Y {\displaystyle Y} jest funkcją zmiennej X . {\displaystyle X.}

Zobacz też

  • informacja wzajemna

Przypisy

  1. Damian Niwiński, Michał Strojnowski, Marcin Wojnarski: Teoria informacji – materiały Wydziału MIM UW. [dostęp 2010-01-21].