Mesure de l’information : notion d’entropie
Contents
1.3. Mesure de l’information : notion d’entropie#
1.3.1. Information propre#
Soit \(X\) une variable aléatoire discrète et \(X=x\) un événement de probabilité \(p(x)\), une mesure de l’information, notons-là \(h(x),\) s’identifie à une mesure de l’inattendu, de l’improbable. Ainsi, une information apportée par la réalisation de l’événement \(X\) sera d’autant plus importante que celle-ci est peu probable, ie.
Concernant la notion d’information, les propriétés attendues sont:
\(f(.)\) est une fonctionnelle croissante de \(p(x),\)
\(f(p)=0\) quand \(p \rightarrow 1\) (événement certain)
\(f(p \cdot q)=f(p)+f(q)\) (additivité de l’information pour des événements indépendants \(: h(x\) et \(y)=h(x)+h(y)).\)
Compte tenu de cette axiomatique, la fonction \(f(p)=-\log (p)\) est la seule fonction qui soit à la fois positive, continue sur \([0,1)\) et qui vérifie l’additivité des informations indépendantes. La base du logarithme est elle indifférente.
Definition 1.2 (Information propre)
Soit \(X\) une variable aléatoire discrète et \(X=x\) un événement de probabilité \(p(x)\), on appelle information propre ou quantité d’information apportée par l’événement \(x\), la quantité
Property 1.1
positivité :
\[ h(x) \geq 0\]additivité : soient \(x\) et \(y\) deux événements indépendants, alors
\[h(x \text { et } y)=h(x)+h(y)\]
Quand le la base du logarithme est la base naturel \((\log_e(.))\), on parle de Shannon (Sh.) ou d’unité naturelle, notée nats pour natural units. Si on utilise un logarithm en base \(2\) \((\log_2(.)),\) on parle d’unité binaire, notée bits pour binary units. Ainsi, pour une source binaire à valeur dans \(\{0,1\}\) equi-distribuée de symbolesindépendants, l’information propre associée à chaque symbole binaire est \(h(1 / 2)=1\) bits. Pour une source \(M\) -aire à valeur dans \(\{0,1 \cdots, M-1\}\) equidistribuée de symboles indépendants, l’information propre associée à chaque symbole est \(h(1 / M)=\log _{2}(M)\) bits.
1.3.2. Entropie associée à une variable aléatoire discrète#
Definition 1.3 (Entropie)
Soit \(\mathbf{X}\) une variable aléatoire discrète à valeurs dans l’alphabet \(\mathcal{X}\) de d.d.p. \(p(x)=Prob(X=x), \; x \in \mathcal{X}\), alors l’entropie associée est donnée par
C’est la “quantité d’information moyenne” exprimée en bits/symbole.
Property 1.2
\(\boldsymbol{\mathbf{H}}(X)\) est déterministe et c’est une fonction(nelle) de \(p(x)\),
\(\boldsymbol{\mathbf{H}}(X) \geq 0\) (positivité),
\(\boldsymbol{\mathbf{H}}(X)=0\) \(\Leftrightarrow\) \(X\) est déterministe,
\(\boldsymbol{\mathbf{H}}(X)=\log_2{(M)}\) pour distribution uniforme de symboles \(M\)-aire,
Invariance par équivalence (ie. \(Y=f(X)\) où \(f(.)\) inversible),
L’entropie d’une source \(M\)-aire vérifie
\[\boldsymbol{\mathbf{H}}(X) \leq \log_2{(M)}\]avec égalité pour une source à distribution uniforme.
Example 1.1
Soit \(X\) à valeurs dans un alphabet binaire \(\mathcal{X}=\left\{x_{0}, x_{1}\right\}\) tel que \(P\left(X=x_{0}\right)=p\) and \(P\left(X=x_{1}\right)=1-p.\) Alors
où \(\mathrm{H}_{\mathrm{b}}(\mathrm{p})\) est ce que l’on nomme la fonction d’entropie binaire donnée par
1.3.3. Entropie conjointe et conditionnelle#
Definition 1.4 (Entropie conjointe )
Soient \(X\) et \(Y\) deux variables aléatoires discrètes
On remarquera que
Definition 1.5 (Entropie de \(Y\) sachant \(X=x\))
soient \(X\) et \(Y\) deux variables aléatoires discrètes, alors l’entropie de \(Y\) sachant \(X=x\) est donnée
Definition 1.6 (Entropie conditionnelle)
Property 1.3
chain rule :
\[\boldsymbol{\mathbf{H}}(X,Y) = \boldsymbol{\mathbf{H}}(X) + \boldsymbol{\mathbf{H}}(Y|X)=\boldsymbol{\mathbf{H}}(Y) + \boldsymbol{\mathbf{H}}(X|Y)\]borne inf :
\[\boldsymbol{\mathbf{H}}(X,Y) \geq \boldsymbol{\mathbf{H}}(X) \mbox{ ou } \boldsymbol{\mathbf{H}}(Y)\]Conditionnement :
\[\boldsymbol{\mathbf{H}}(X|Y) \leq \boldsymbol{\mathbf{H}}(X)\]égalité si \(X\) et \(Y\) indépendants
Décroissance par conditionnement :
\[\boldsymbol{\mathbf{H}}(X_1|X_2,\cdots,X_n) \leq \cdots \leq \boldsymbol{\mathbf{H}}(X_1|X_2,X_3) \leq \boldsymbol{\mathbf{H}}(X_1|X_2) \leq\boldsymbol{\mathbf{H}}(X_1)\]Encadrement (sous additivité de l’entropie) :
\[\boldsymbol{\mathbf{H}}(X,Y) \leq \boldsymbol{\mathbf{H}}(X)+\boldsymbol{\mathbf{H}}(Y) \leq 2 \boldsymbol{\mathbf{H}}(X,Y)\]Entropie conjointe et conditionnement :
\[\boldsymbol{\mathbf{H}}(X,Y|Z)=\boldsymbol{\mathbf{H}}(X|Z)+\boldsymbol{\mathbf{H}}(Y|X,Z)\]positivité :
\[\boldsymbol{\mathbf{H}}(X|Y) \geq 0\]égalité si \(X=f(Y)\) où \(f(.)\) déterministe
L’ensemble des définition précédentes se généralise assez facilement au cas de vecteurs de dimension supérieure à \(2.\) En particulier, soit \(X_1, X_2,\cdots X_n\) de loi conjointe \(p(x_1,x_2,\cdots,x_n),\) on aura par définition
On peut vérifier que
avec égalité si et seulement si les \(X_i\) sont indépendants. La relation chaînée associée à l’entropie est quant à elle donnée par
1.3.4. Entropie(s) associée(s) à une variable aléatoire continue#
Si la notion d’information est bien reliée à l’entropie d’une variable aléatoire discrète, ce lien est moins évident pour une variable aléatoire continue.
Definition 1.7 (Entropie différentielle)
Soit \(X\) une variable aléatoire continue définie par une densité de probabilité \(f(x),\) alors l’entropie différentielle est donnée
On ne peut pas interpréter \(h(X)\) comme une mesure d’information ou d’incertitude dans le cas continue. Ceci peut se voir dans le cas d’un changement de variable. Soit \(Y=f(X),\) par changement de variable, on a \(h(X) \neq h(Y)=h(f(X))\) donc \(h(X)\) n’est pas une mesure d’information stricte. Dans le cas particulier du changement d’échelle, tel que \(Y=a X,\) on a \(h(X) \neq h(a X)=h(X)+\log (a)\) qui peut même être négatif!
Property 1.4
Loi uniforme sur \([a, b]:\)
\[\begin{split}\begin{array}{c} f(x)=\frac{1}{b-a} \\ h(x)=\log (b-a) \end{array}\end{split}\]Loi normale de moyenne \(\mu\) et variance \(\sigma^{2}:\)
\[f(x)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)\]\[h(x)=\frac{1}{2} \log 2 \pi e+\log (\sigma)\]
Comme pour le cas discret, on peut définir des entropies conjointes et conditionnelles. Soit \(X_{1}, X_{2}, \cdots, X_{n}\) associées à la densité conjointe \(f\left(x_{1}, x_{2}, \cdots, x_{n}\right),\) l’entropie différentielle conjointe est définie comme suit
De même pour deux v.a. \(X\) et \(Y\), l’entropie différentielle conditionnelle de \(X\) sachant \(Y\) est donnée par
Ces quantités sont très utiles car elles permettent de calculer l’information mutuelle entre deux variables aléatoires, quantité fondamentale en théorie de l’information et qui pour le coup à la même interprétation en discret et en continu.