Entropía de Rényi

En teoría de la información, la entropía de Rényi generaliza la entropía de Hartley, la entropía de Shannon, la entropía de colisión y la entropía min. Las entropías cuantifican la diversidad, incertidumbre o aleatoriedad de un sistema. La entropía de Rényi lleva el nombre de Alfréd Rényi.^[1] En el contexto de estimación de la dimensión fractal, la entropía de Rényi forma la base del concepto de dimensiones generalizadas.

La entropía de Rényi es importante en ecología y estadística como índice de diversidad. La entropía de Rényi también es importante en información cuántica, donde se puede usar como medida del entrelazamiento. En el modelo de Heisenberg de cadena de espín XY, se puede calcular explícitamente la entropía de Rényi como función de α gracias al hecho de que es una función automórfica con respecto a un subgrupo particular del grupo modular.^[2]^[3] En ciencia computacional teórica, la entropía min se usa en el contexto de extractores de aleatoriedad.

Definición

La entropía de Rényi de orden $\alpha$ , donde $\alpha \geq 0$ y $\alpha \neq 1$ , se define como

H_{\alpha }(X)={\frac {1}{1-\alpha }}\log {\Bigg (}\sum _{i=1}^{n}p_{i}^{\alpha }{\Bigg )}

.

Aquí, $X$ es una variable aleatoria discreta con resultados posibles $1,2,...,n$ y probabilidades correspondientes $p_{i}\doteq \Pr(X=i)$ para $i=1,\dots ,n$ , y el logaritmo es de base 2. Si las probabilidades son $p_{i}=1/n$ para todo $i=1,\dots ,n$ , entonces todas las entropías de Rényi de la distribución son iguales: $H_{\alpha }(X)=\log n$ . En general, para todas las variables aleatorias discretas $X$ , $H_{\alpha }(X)$ es una función no creciente de $\alpha$ .

Sus aplicaciones suelen utilizar la siguiente relación entre la entropía de Rényi y la norma p del vector de probabilidades:

H_{\alpha }(X)={\frac {\alpha }{1-\alpha }}\log \left(\|P\|_{\alpha }\right)

.

donde la distribución de probabilidad discreta $P=(p_{1},\dots ,p_{n})$ se interpreta como un vector en $\mathbb {R} ^{n}$ con $p_{i}\geq 0$ y $\sum _{i=1}^{n}p_{i}=1$ .

La entropía de Rényi para cualquier $\alpha \geq 0$ es Schur-cóncava.

Casos especiales de la entropía de Rényi

Cuando α tiende a cero, la entropía de Rényi le da un peso cada vez más parejo a todos los eventos posibles, independientemente de sus probabilidades. En el límite α → 0, la entropía de Rényi es simplemente el logaritmo del tamaño del soporte de X. El límite α → 1 es la entropía de Shannon. Cuando α tiende a infinito, la entropía de Rényi está determinada por los eventos de mayor probabilidad.

Entropía max o de Hartley

Dadas probabilidades no nulas,^[4] $H_{0}$ es el logaritmo de la cardinalidad de X, a veces llamado la entropía de Hartley de X,

H_{0}(X)=\log n=\log |X|.\,

Entropía de Shannon

El valor límite de $H_{\alpha }$ cuando α → 1 es la entropía de Shannon:^[5]

H_{1}(X)=-\sum _{i=1}^{n}p_{i}\log p_{i}.

Entropía de colisión

La entropía de colisión, a veces llamada simplemente entropía de Rényi, se refiere al caso α = 2,

H_{2}(X)=-\log \sum _{i=1}^{n}p_{i}^{2}=-\log P(X=Y)

donde X e Y son independientes e idénticamente distribuidas.

Entropía min

En el límite $\alpha \rightarrow \infty$ , la entropía de Rényi $H_{\alpha }$ converge a la entropía min $H_{\infty }$ :

H_{\infty }(X)\doteq \min _{i}(-\log p_{i})=-(\max _{i}\log p_{i})=-\log \max _{i}p_{i}\,.

De forma equivalente, la entropía min $H_{\infty }(X)$ es el mayor número real b tal que todos los eventos ocurren con probabilidad a lo sumo $2^{-b}$ .

El nombre entropía min proviene del hecho de que es la menor medida de la entropía de la familia de entropías de Rényi. En este sentido, es la manera más fuerte de medir la información contenida en una variable aleatoria discreta. En particular, la entropía min nunca es mayor que la entropía de Shannon.

La entropía min tiene importantes aplicaciones en extractores de aleatoriedad en ciencia computacional teórica: los extractores son capaces de extraer aleatoriedad de fuentes aleatorias que tienen gran entropía min. Tener simplemente una entropía de Shannon grande no es suficiente para ello.

Entropía lineal

Un caso particular de la entropía de Rényi corresponde a la entropía lineal ( $\alpha =2$ ):

$L(X)=H_{2}(X)=-log{\Bigg (}\sum _{i=1}^{n}p_{i}^{2}{\Bigg )}$

Desigualdades entre diferentes valores de α

Se puede probar por derivación que $H_{\alpha }$ es no creciente con $\alpha$ ,^[6] de la forma

-{\frac {dH_{\alpha }}{d\alpha }}={\frac {1}{(1-\alpha )^{2}}}\sum _{i=1}^{n}z_{i}\log(z_{i}/p_{i}),

que es proporcional a la divergencia de Kullback-Leibler (que es siempre no negativa), donde $z_{i}=p_{i}^{\alpha }/\sum _{j=1}^{n}p_{j}^{\alpha }$ .

En casos particulares las desigualdades se pueden probar también con la desigualdad de Jensen:^[7]^[8]

\log n=H_{0}\geq H_{1}\geq H_{2}\geq H_{\infty }.

Para valores de $\alpha >1$ , también se cumplen desigualdades en el otro sentido. En particular, se tiene^[9]^{[cita requerida]}

H_{2}\leq 2H_{\infty }.

Por otro lado, la entropía de Shannon $H_{1}$ puede ser arbitrariamente grande para una variable aleatoria $X$ con una entropía min dada.^{[cita requerida]}

Divergencia de Rényi

Al igual que las entropías de Rényi absolutas, Rényi también definió un espectro de medidas de la divergencia generalizando la divergencia de Kullback-Leibler.^[10]

La divergencia de Rényi de orden α o divergencia alfa de una distribución P respecto de una distribución Q se define como

D_{\alpha }(P\|Q)={\frac {1}{\alpha -1}}\log {\Bigg (}\sum _{i=1}^{n}{\frac {p_{i}^{\alpha }}{q_{i}^{\alpha -1}}}{\Bigg )}\,

donde 0 < α < ∞ y α ≠ 1. Se puede definir la divergencia de Rényi para los valores particulares α = 0, 1, ∞ tomando el límite, y en particular el límite α → 1 da la divergencia de Kullback-Leibler.

Algunos casos particulares:

D_{0}(P\|Q)=-\log Q(\{i:p_{i}>0\})

: menos la probabilidad en Q de que p_i > 0;

D_{1/2}(P\|Q)=-2\log \sum _{i=1}^{n}{\sqrt {p_{i}q_{i}}}

: menos dos veces el logaritmo del coeficiente de Bhattacharyya; (Nielsen y Boltz (2009))

D_{1}(P\|Q)=\sum _{i=1}^{n}p_{i}\log {\frac {p_{i}}{q_{i}}}

: la divergencia de Kullback-Leibler;

D_{2}(P\|Q)=\log {\Big \langle }{\frac {p_{i}}{q_{i}}}{\Big \rangle }

: el logaritmo del ratio esperado de las probabilidades;

D_{\infty }(P\|Q)=\log \sup _{i}{\frac {p_{i}}{q_{i}}}

: el logaritmo del ratio máximo de las probabilidades.

La divergencia de Rényi es de hecho una divergencia, lo que quiere decir simplemente que $D_{\alpha }(P\|Q)$ es mayor o igual que cero, siendo cero si y solo si P = Q. Para un par de distribuciones cualesquiera pero fijas P y Q, la divergencia de Rényi es no decreciente como función de su orden α, y es continua en elconjunto de α para los que es finita.

Por qué α = 1 es especial

El valor $α = 1$ , que da la entropía de Shannon y la divergencia de Kullback-Leibler, es especial ya que es solo con $α = 1$ con que se cumple la regla de la cadena de la probabilidad condicionada de forma exacta:

H(A,X)=H(A)+\mathbb {E} _{a\sim A}{\big [}H(X|A=a){\big ]}

para las entropías absolutas, y

D_{\mathrm {KL} }(p(x|a)p(a)||m(x,a))=D_{\mathrm {KL} }(p(a)||m(a))+\mathbb {E} _{p(a)}\{D_{\mathrm {KL} }(p(x|a)||m(x|a))\},

para las entropías relativas.

Esto último en particular significa que si buscamos una distribución $p (x, a)$ que minimice la divergencia de alguna medida previa subyacente $m (x, a)$ , y obtenemos nueva información que solo afecta a la distribución $a$ , entonces la distribución de $p (x | a)$ permanece $m (x | a)$ , sin cambios.

Las otras divergencias de Rényi satisfacen los criterios de ser positivas y continuas; ser invariantes bajo transformaciones coordinadas inyectivas; y de combinarse aditivamente cuando $A$ y $X$ son independientes, de forma que $p (A, X) = p (A) p (X)$ , luego

H_{\alpha }(A,X)=H_{\alpha }(A)+H_{\alpha }(X)\;

y

D_{\alpha }(P(A)P(X)\|Q(A)Q(X))=D_{\alpha }(P(A)\|Q(A))+D_{\alpha }(P(X)\|Q(X)).

Las propiedades más fuertes de las cantidades $α = 1$ , que permiten definir la información condicional y la información mutua en teoría de comunicación, pueden ser muy importantes en otras aplicaciones, o completamente irrelevantes, dependiendo de las necesidades de tales aplicaciones.

Familias exponenciales

Las entropías de Rényi y las divergencias para una familia exponencial admiten expresiones simples^[11]

H_{\alpha }(p_{F}(x;\theta ))={\frac {1}{1-\alpha }}\left(F(\alpha \theta )-\alpha F(\theta )+\log E_{p}[e^{(\alpha -1)k(x)}]\right)

y

D_{\alpha }(p:q)={\frac {J_{F,\alpha }(\theta :\theta ')}{1-\alpha }}

donde

J_{F,\alpha }(\theta :\theta ')=\alpha F(\theta )+(1-\alpha )F(\theta ')-F(\alpha \theta +(1-\alpha )\theta ')

es la divergencia de Jensen.

Significado físico

La entropía de Rényi en física cuántica no se considera un observable, debido a su dependencia no lineal con la matriz de densidad. La entropía de Shannon comparte esta dependencia no lineal. Ansari y Nazarov mostraron una correspondencia que revela el significado físico del flujo de entropía de Renyi en el tiempo. Su propuesta es similar al teorema de fluctuación-disipación en espíritu y permite la medida de la entropía cuántica usando la estadística de contado completo de las transferencias de energía.^[12]^[13]^[14]

Véase también

Notas

↑ Rényi (1961)
↑ Franchini (2008)
↑ Its (2010)
↑ RFC 4086, page 6
↑ Bromiley, Thacker y Bouhova-Thacker (2004)
↑ Beck (1993)
↑ $H_{1}\geq H_{2}$ se cumple ya que $\sum \limits _{i=1}^{M}{p_{i}\log p_{i}}\leq \log \sum \limits _{i=1}^{M}{p_{i}^{2}}$ .
↑ $H_{\infty }\leq H_{2}$ se cumple ya que $\log \sum \limits _{i=1}^{n}{p_{i}^{2}}\leq \log \sup _{i}p_{i}\left({\sum \limits _{i=1}^{n}{p_{i}}}\right)=\log \sup p_{i}$ .
↑ $H_{2}\leq 2H_{\infty }$ se cumple ya que $\log \sum \limits _{i=1}^{n}{p_{i}^{2}}\geq \log \sup _{i}p_{i}^{2}=2\log \sup _{i}p_{i}$
↑ Van Erven, Tim; Harremoës, Peter (2014). «Rényi Divergence and Kullback–Leibler Divergence». IEEE Transactions on Information Theory 60 (7): 3797-3820. doi:10.1109/TIT.2014.2320500.
↑ Nielsen y Nock (2011)
↑ Nazarov (2011)
↑ Ansari_Nazarov (2015a)
↑ Ansari_Nazarov (2015b)

Referencias

Beck, Christian; Schlögl, Friedrich (1993). Thermodynamics of chaotic systems: an introduction. Cambridge University Press. ISBN 0521433673.
Jizba, P.; Arimitsu, T. (2004). «The world according to Rényi: Thermodynamics of multifractal systems». Annals of Physics 312: 17-59. Bibcode:2004AnPhy.312...17J. arXiv:cond-mat/0207707. doi:10.1016/j.aop.2004.01.002.
Jizba, P.; Arimitsu, T. (2004). «On observability of Rényi's entropy». Physical Review E 69 (2): 026128. Bibcode:2004PhRvE..69b6128J. arXiv:cond-mat/0307698. doi:10.1103/PhysRevE.69.026128.
Bromiley, P.A.; Thacker, N.A.; Bouhova-Thacker, E. (2004), Shannon Entropy, Renyi Entropy, and Information .
Franchini, F.; Its, A. R.; Korepin, V. E. (2008). «Rényi entropy as a measure of entanglement in quantum spin chain». Journal of Physics A: Mathematical and Theoretical 41 (25302): 025302. Bibcode:2008JPhA...41b5302F. arXiv:0707.2534. doi:10.1088/1751-8113/41/2/025302.
Hazewinkel, Michiel, ed. (2001), «Entropía de Rényi», Encyclopaedia of Mathematics (en inglés), Springer, ISBN 978-1556080104 .
Hero, A. O.; Michael, O.; Gorman, J. (2002). Alpha-divergences for Classification, Indexing and Retrieval. Parámetro desconocido |citeseerx= ignorado (ayuda)
Its, A. R.; Korepin, V. E. (2010). «Generalized entropy of the Heisenberg spin chain». Theoretical and Mathematical Physics 164 (3): 1136-1139. Bibcode:2010TMP...164.1136I. doi:10.1007/s11232-010-0091-6.
Nielsen, F.; Boltz, S. (2010). «The Burbea-Rao and Bhattacharyya centroids». IEEE Transactions on Information Theory 57 (8): 5455-5466. arXiv:1004.5049. doi:10.1109/TIT.2011.2159046.
Nielsen, Frank; Nock, Richard (2012). «A closed-form expression for the Sharma–Mittal entropy of exponential families». Journal of Physics A 45 (3): 032003. Bibcode:2012JPhA...45c2003N. arXiv:1112.4221. doi:10.1088/1751-8113/45/3/032003.
Nielsen, Frank; Nock, Richard (2011). «On Rényi and Tsallis entropies and divergences for exponential families». Journal of Physics A 45 (3): 032003. Bibcode:2012JPhA...45c2003N. arXiv:1105.3259. doi:10.1088/1751-8113/45/3/032003.
Rényi, Alfréd (1961). «On measures of information and entropy». Proceedings of the fourth Berkeley Symposium on Mathematics, Statistics and Probability 1960. pp. 547-561.
Rosso, O. A. (2006). «EEG analysis using wavelet-based information tools». Journal of Neuroscience Methods 153 (2): 163-182. PMID 16675027. doi:10.1016/j.jneumeth.2005.10.009.
Zachos, C. K. (2007). «A classical bound on quantum entropy». Journal of Physics A 40 (21): F407. Bibcode:2007JPhA...40..407Z. arXiv:hep-th/0609148. doi:10.1088/1751-8113/40/21/F02.
Nazarov, Y. (2011). «Flows of Renyi entropies». Physical Review B 84 (10): 205437. Bibcode:2015PhRvB..91j4303A. arXiv:1108.3537. doi:10.1103/PhysRevB.91.104303.
Ansari, Mohammad H.; Nazarov, Yuli V. (2015). «Renyi entropy flows from quantum heat engines». Physical Review B 91 (10): 104303. Bibcode:2015PhRvB..91j4303A. arXiv:1408.3910. doi:10.1103/PhysRevB.91.104303.
Ansari, Mohammad H.; Nazarov, Yuli V. (2015). «Exact correspondence between Renyi entropy flows and physical flows». Physical Review B 91 (17): 174307. Bibcode:2015PhRvB..91q4307A. arXiv:1502.08020. doi:10.1103/PhysRevB.91.174307.

Datos: Q1433083

[Renyi61-1] Rényi (1961)

[2] Franchini (2008)

[3] Its (2010)

[4] RFC 4086, page 6

[5] Bromiley, Thacker y Bouhova-Thacker (2004)

[Beck1993-6] Beck (1993)

[7] $H_{1}\geq H_{2}$ se cumple ya que $\sum \limits _{i=1}^{M}{p_{i}\log p_{i}}\leq \log \sum \limits _{i=1}^{M}{p_{i}^{2}}$ .

[8] $H_{\infty }\leq H_{2}$ se cumple ya que $\log \sum \limits _{i=1}^{n}{p_{i}^{2}}\leq \log \sup _{i}p_{i}\left({\sum \limits _{i=1}^{n}{p_{i}}}\right)=\log \sup p_{i}$ .

[9] $H_{2}\leq 2H_{\infty }$ se cumple ya que $\log \sum \limits _{i=1}^{n}{p_{i}^{2}}\geq \log \sup _{i}p_{i}^{2}=2\log \sup _{i}p_{i}$

[VanErvenHarremoes2014-10] Van Erven, Tim; Harremoës, Peter (2014). «Rényi Divergence and Kullback–Leibler Divergence». IEEE Transactions on Information Theory 60 (7): 3797-3820. doi:10.1109/TIT.2014.2320500.

[11] Nielsen y Nock (2011)

[12] Nazarov (2011)

[13] Ansari_Nazarov (2015a)

[14] Ansari_Nazarov (2015b)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]