Křížová entropie

Křížová entropie mezi dvěma rozděleními pravděpodobnosti $p$ a $q$ se stejnou podkladovou množinou událostí míry je v teorii informace průměrný počet bitů potřebných pro identifikaci události vybrané z množiny, jestliže kódovací schéma používané pro množinu je optimalizované pro odhadnuté rozdělení pravděpodobnosti $q$ místo skutečného rozdělení $p$ .

Definice

Křížová entropie rozdělení $q$ vůči rozdělení $p$ na dané množině je definovaná takto:

H (p, q) = - E_{p} [\log q]

.

Jiná definice používá Kullbackovu–Leiblerovu divergenci $D_{K L} (p ‖ q)$ rozdělení $p$ z $q$ (neboli relativní entropie rozdělení $q$ vzhledem k $p$ ):

H (p, q) = H (p) + D_{K L} (p ‖ q)

,

kde $H (p)$ je entropie rozdělení $p$ .

Pro diskrétní pravděpodobnostní distribuce $p$ a $q$ se stejným nosičem $𝒳$ to znamená

H (p, q) = - \sum_{x \in 𝒳} p (x) \log q (x)

(rovnice 1)

Pro spojité distribuce je situace analogická. Musíme předpokládat, že $p$ a $q$ jsou absolutně spojité vzhledem k nějaké referenční míře $r$ (obvykle je $r$ Lebesgueova míra na Borelovské σ-algebře). Nechť $P$ a $Q$ jsou hustoty pravděpodobností rozdělení $p$ a $q$ vzhledem k $r$ . Pak

- \int_{𝒳} P (x) \log Q (x) d r (x) = E_{p} [- \log Q]

a tedy

H (p, q) = - \int_{𝒳} P (x) \log Q (x) d r (x)

(rovnice 2)

Poznámka: Notace $H (p, q)$ se používá také pro jinou veličinu, sdruženou entropii rozdělení $p$ a $q$ .

Motivace

Kraftova–McMillanova věta v teorii informace říká, že jakékoli přímo dekódovatelné kódovací schéma pro kódování zprávy identifikující jednu hodnotu $x_{i}$ ze sady možností ${x_{1}, . . ., x_{n}}$ můžeme považovat za reprezentaci implicitního rozdělení pravděpodobnosti $q (x_{i}) = {(\frac{1}{2})}^{l_{i}}$ pro ${x_{1}, . . ., x_{n}}$ , kde $l_{i}$ je délka kódu pro $x_{i}$ v bitech. Proto lze křížovou entropii interpretovat jako očekávanou délku zprávy pro zakódování jedné položky, když předpokládáme nějaké rozdělení $q$ , zatímco data mají ve skutečnosti rozdělení $p$ . To znamená, že očekávané hodnoty se berou ze skutečného rozdělení pravděpodobnosti $p$ místo z $q$ . Očekávaná délka zprávy při skutečném rozdělení $p$ je

E_{p} [l] = - E_{p} [\frac{\ln q (x)}{\ln (2)}] = - E_{p} [\log_{2} q (x)] = - \sum_{x_{i}} p (x_{i}) \log_{2} q (x_{i}) = - \sum_{x} p (x) \log_{2} q (x) = H (p, q)

Odhad

Je mnoho situací, kdy by bylo třeba měřit křížovou entropii, ale rozdělení $p$ je neznámé. Příkladem je jazykové modelování, kde model je vytvořen na trénovací množině $T$ a jeho křížová entropie je pak měřena na testovací množině pro zhodnocení, jak je model přesný v predikci testovacích dat. V tomto příkladě je $p$ skutečné rozdělení slov v nějakém korpusu a $q$ je rozdělení slov predikované modelem. Protože skutečné rozdělení je neznámé, nelze křížovou entropii přímo spočítat. V takovém případě se odhad křížové entropie počítá pomocí vzorce:

H (T, q) = - \sum_{i = 1}^{N} \frac{1}{N} \log_{2} q (x_{i})

kde $N$ je velikost testovací množiny a $q (x)$ je pravděpodobnost události $x$ odhadnuté z trénovací množiny. Suma se počítá přes $N$ . Toto je pravděpodobnostní (Monte Carlo) odhad skutečné křížové entropie, při kterém testovací množinu považujeme za vzorek z $p (x)$ .

Vztah k logaritmické věrohodnosti

U klasifikačních problémů chceme odhadnout pravděpodobnost jednotlivých výsledků. Pokud odhadnutá pravděpodobnost výsledku $i$ je $q_{i}$ , zatímco frekvence (empirická pravděpodobnost) výsledku $i$ v trénovací množině je $p_{i}$ a v trénovací množině je N vzorků, pak věrohodnost trénovací množiny je

\prod_{i} q_{i}^{N p_{i}}

a logaritmická věrohodnost vydělená $N$ je

\frac{1}{N} \log \prod_{i} q_{i}^{N p_{i}} = \sum_{i} p_{i} \log q_{i} = - H (p, q)

takže maximalizace věrohodnosti je totéž jako minimalizace křížové entropie.

Minimalizace křížové entropie

Minimalizace křížové entropie se často používá při optimalizaci a odhadu pravděpodobnosti řídkých událostí; viz metoda křížové entropie.

Při porovnávání rozdělení $q$ s pevným referenčním rozdělením $p$ jsou křížová entropie a KL divergence identické až na aditivní konstantu (protože $p$ je pevné): obě nabývají pro $p = q$ své minimální hodnoty, která je $0$ pro KL divergenci a $H (p)$ pro křížovou entropii^[1]. V inženýrské literatuře se postup minimalizace KL divergence (Kullbackův "Princip minimální diskriminace informace") často nazývá Princip minimální křížové entropie (MCE, z anglického Šablona:Cizojazyčně) nebo Minxent.

Jak je však diskutováno v článku Kullbackova–Leiblerova divergence, někdy je rozdělení $q$ fixováno před referenčním rozdělením a rozdělení $p$ je optimalizováno, aby bylo co nejbližší k $q$ , při platnosti určitých omezení. V takovém případě obě minimalizace nejsou ekvivalentní. To vedlo k určité nejednoznačnosti v literatuře, protože někteří autoři usilovali vyřešit nekonzistenci tím, že termínem křížová entropie označují $D_{K L} (p ‖ q)$ místo $H (p, q)$ .

Nákladová funkce křížové entropie a logistická regrese

Křížovou entropii lze použít pro definování nákladové funkce při strojovém učení a optimalizaci. Skutečná pravděpodobnost $p_{i}$ je skutečný popisek a dané rozdělení $q_{i}$ je predikovanou hodnotou současného modelu.

Konkrétněji uvažujme logistickou regresi, kterou lze (mimo jiné) použít pro klasifikaci pozorování do dvou možných tříd (často značených $0$ a $1$ ). Výstup modelu pro určité pozorování dané vektorem vstupních vlastností $x$ lze interpretovat jako pravděpodobnost, což slouží jako základ pro klasifikaci pozorování. Pravděpodobnost je znázorněna pomocí logistické funkce $g (z) = 1 / (1 + e^{- z})$ kde $z$ je nějaká funkce vstupního vektoru $x$ , obvykle pouze lineární funkce. Pravděpodobnost výstupu $y = 1$ je

q_{y = 1} = \hat{y} \equiv g (𝐰 \cdot 𝐱) = 1 / (1 + e^{- 𝐰 \cdot 𝐱}),

kde vektor vah $𝐰$ je optimalizován pomocí nějakého vhodného algoritmu, jako například metodou gradientního spádu. Podobně komplementární pravděpodobnost hledání výstup $y = 0$ je

q_{y = 0} = 1 - \hat{y}

Při použití notace $p \in {y, 1 - y}$ a $q \in {\hat{y}, 1 - \hat{y}}$ můžeme používat křížovou entropii pro získání míry odlišnosti mezi $p$ a $q$ :

H (p, q) = - \sum_{i} p_{i} \log q_{i} = - y \log \hat{y} - (1 - y) \log (1 - \hat{y})

Typická nákladová funkce, kterou používáme v logistické regresi, se počítá jako průměr všech křížových entropií ve vzorku. Pokud například máme $N$ vzorků indexovaných $n = 1, \dots, N$ , bude nákladová funkce

\begin{matrix} J (𝐰) & = \frac{1}{N} \sum_{n = 1}^{N} H (p_{n}, q_{n}) = - \frac{1}{N} \sum_{n = 1}^{N} [y_{n} \log {\hat{y}}_{n} + (1 - y_{n}) \log (1 - {\hat{y}}_{n})], \end{matrix}

kde ${\hat{y}}_{n} \equiv g (𝐰 \cdot 𝐱_{n}) = 1 / (1 + e^{- 𝐰 \cdot 𝐱_{n}})$ a $g (z)$ je logistická funkce stejně jako výše.

Logistická ztráta se někdy nazývá ztráta křížové entropie nebo logaritmická ztráta (V tomto případě se třídy zpravidla označují hodnotami {-1,+1})^[2].

Odkazy

Reference

Šablona:Překlad

Související články

Externí odkazy

Šablona:Autoritní data

[goodfellow2016-1] Šablona:Citace monografie

[2] Šablona:Citace monografie

[1]

[2]

Křížová entropie

Obsah

Definice

Motivace

Odhad

Vztah k logaritmické věrohodnosti

Minimalizace křížové entropie

Nákladová funkce křížové entropie a logistická regrese

Odkazy

Reference

Související články

Externí odkazy

Navigační menu

Křížová entropie

Definice

Motivace

Odhad

Vztah k logaritmické věrohodnosti

Minimalizace křížové entropie

Nákladová funkce křížové entropie a logistická regrese

Odkazy

Reference

Související články

Externí odkazy

Navigační menu

Hledat