Empirická distribuční funkce
Empirická distribuční funkce (obvykle označovaná eCDF podle anglického Šablona:Cizojazyčně) je ve statistice distribuční funkce vytvořená na základě empirické míry určené hodnotami určitého znaku z výběrového souboru.[1] Tato distribuční funkce je schodovitá funkce tvořená skoky velikosti Šablona:Math v každém z Šablona:Math datových bodů. Její hodnota v každém bodě je zlomek, jehož čitatelem je počet pozorování, v nichž je měřená proměnná menší nebo rovna zadané hodnotě, a jmenovatelem je rozsah souboru, N.
Empirická distribuční funkce je odhadem distribuční funkce, která generuje datové body. Podle Glivenkovy–Cantelliho věty konverguje k tomuto podkladovému rozdělení s pravděpodobností 1. Rychlost konvergence empirické distribuční funkce k podkladové distribuční funkci popisují různé matematické věty.
Definice
Nechť Šablona:Math jsou nezávislé stejně rozdělené náhodné veličiny reálné náhodné proměnné se stejnou distribuční funkcí Šablona:Math. Empirická distribuční funkce je pak definována vzorcemŠablona:Sfn[2]
kde je počet prvků, které mají hodnotu zvoleného znaku menší nebo rovnou , je charakteristická funkce události Šablona:Math. Pro pevné Šablona:Math je indikátor náhodná proměnná s Bernoulliho rozdělením s parametrem Šablona:Math; tedy je binomická náhodná proměnná se střední hodnotou Šablona:Math a rozptylem Šablona:Math. Z toho plyne, že je nevychýlený odhad funkce Šablona:Math.
Někteří autoři používají v čitateli zlomku hodnotu :Šablona:SfnŠablona:Sfn
Střední hodnota
Střední hodnota empirického rozdělení je nestranný odhad střední hodnoty rozdělení populace
která se častěji označuje
Rozptyl
Rozptyl empirického rozdělení znásobený je nestranný odhad rozptylu rozdělení populace
Střední kvadratická chyba
Střední kvadratická chyba empirického rozdělení je
kde je odhad a neznámý parametr
Kvantily
Pokud není celé číslo, pak -tý kvantil je jednoznačný a jen roven
kde je horní celá část čísla (nejmenší celé číslo větší nebo rovné ).
Pokud je celé číslo, pak -tý kvantil není jednoznačný a jeho hodnota může být jakékoli reálné číslo vyhovující nerovnosti
Empirický medián
Pokud je liché, pak empirický medián je číslo
pokud je sudé, pak empirický medián je číslo
Asymptotické vlastnosti
Protože poměr Šablona:Math se pro Šablona:Math jdoucí k nekonečnu blíží k 1, asymptotické vlastnosti z obou výše uvedených definic jsou stejné.
Podle zákona velkých čísel odhad konverguje k Šablona:Math pro Šablona:Math skoro jistě pro každou hodnotu Šablona:Math:Šablona:Sfn
Odhad je tedy konzistentní. Tento výraz vyjadřuje bodovou konvergenci empirické distribuční funkce ke skutečné distribuční funkci. Silnější tvrzení poskytuje Glivenkova–Cantelliho věta, která říká, že konvergence je stejnoměrná přes Šablona:Math:Šablona:Sfn
Suprémová norma v tomto výrazu se nazývá Kolmogorovova–Smirnovova statistika pro testování, jak dobře empirické rozdělení vyhovuje předpokládané skutečné distribuční funkci Šablona:Math. Mohou být použity i jiné normy, například L2-norma, která dává Cramérovu–von Misesovu statistiku.
Asymptotická rozdělení lze dále charakterizovat několika různými způsoby:
Centrální limitní věta, říká, že bodově má asymptoticky normální rozdělení se standardní rychlostí konvergence:Šablona:Sfn
Tento výsledek rozšiřuje Donskerova věta, která říká, že pokud empirický proces považujeme za třídu funkcí indexovaných reálným číslem , konverguje v rozdělení ve Skorochodově prostoru ke gaussovskému procesu se střední hodnotou nula , kde Šablona:Math je standardní Brownův můstek.Šablona:Sfn Kovarianční struktura tohoto gaussovského procesu je
Rovnoměrnou konvergenci v Donskerově větě lze kvantifikovat výsledkem známým jako maďarské vnoření:Šablona:Sfn
Rychlost konvergence výrazu lze také kvantifikovat asymptotickým chováním suprémové normy tohoto výrazu. V této oblasti existují další výsledky, například Dvoretzkého–Kieferova–Wolfowitzova nerovnost poskytuje meze tail probabilities of :Šablona:Sfn
Kolmogorov ukázal, že pokud je distribuční funkce Šablona:Math spojitá, pak výraz konverguje v rozdělení k , který má Kolmogorovovo–Smirnovovo rozdělení, které nezávisí na tvaru funkce Šablona:Math.
Ze zákona opakovaného logaritmu plyne další výsledekŠablona:Sfn
a
Intervaly spolehlivosti

Podle Dvoretzkého–Kieferovy–Wolfowitzovy nerovnosti lze interval, který obsahuje skutečnou distribuční funkci s pravděpodobností , zapsat

Podle výše uvedených mezí můžeme graficky znázornit empirickou distribuční funkci, distribuční funkci a intervaly spolehlivosti pro různé distribuce pomocí libovolné statistické implementace. Následuje syntax z StatsmodelŠablona:Nedostupný zdroj pro grafické znázornění empirického rozdělení.

Statistické implementace
K softwarovým implementacím empirické distribuční funkce patří:
- V programovacím jazyce R lze počítat empirické distribuční funkce, k dispozici je několik metod pro grafické znázornění a tisk a výpočty empirických distribučních funkcí.
- V Mathworks lze použít vykreslení grafu empirické distribuční funkce (cdf)
- jmp ze SAS obsahuje CDF plot, který vytváří graf empirické distribuční funkce
- Minitab, vytváří empirické distribuční funkce
- Mathwave Šablona:Wayback umožňuje napasovat rozdělení pravděpodobnosti na data
- Dataplot, umožňuje vykreslit graf empirické distribuční funkce
- Scipy Šablona:Wayback, pomocí scipy.stats umožňuje vykreslit graf rozdělení
- Statsmodels, umožňuje použití statsmodels.distributions.empirical_distribution.ECDF
- Matplotlib, umožňuje použití histogramů pro vytvoření grafu kumulativního rozdělení
- Seaborn obsahuje funkci seaborn.ecdfplot
- Plotly, lze použít funkci plotly.express.ecdf
- Excel umožňuje vykreslit graf empirické distribuční funkce
Odkazy
Reference
Literatura
- Šablona:Citace monografie
- Šablona:Citace monografie
- Šablona:Citace monografie
- Šablona:Citace monografie
Související články
- Càdlàg funkce
- Count data
- Fitting rozdělení
- Dvoretzkého–Kieferova–Wolfowitzova nerovnost
- Empirická pravděpodobnost
- Empirické zpracování
- Kvantil – odhad kvantilů ze vzorku
- Četnost
- Kaplanův–Meierův odhad pro cenzorované procesy
- Funkce přežití
- Q-Q graf
- Znak (statistika)