Empirická distribuční funkce

Z testwiki
Skočit na navigaci Skočit na vyhledávání

Šablona:CSS ořez obrazu

Empirická distribuční funkce (obvykle označovaná eCDF podle anglického Šablona:Cizojazyčně) je ve statistice distribuční funkce vytvořená na základě empirické míry určené hodnotami určitého znaku z výběrového souboru.[1] Tato distribuční funkce je schodovitá funkce tvořená skoky velikosti Šablona:Math v každém z Šablona:Math datových bodů. Její hodnota v každém bodě je zlomek, jehož čitatelem je počet pozorování, v nichž je měřená proměnná menší nebo rovna zadané hodnotě, a jmenovatelem je rozsah souboru, N.

Empirická distribuční funkce je odhadem distribuční funkce, která generuje datové body. Podle Glivenkovy–Cantelliho věty konverguje k tomuto podkladovému rozdělení s pravděpodobností 1. Rychlost konvergence empirické distribuční funkce k podkladové distribuční funkci popisují různé matematické věty.

Definice

Nechť Šablona:Math jsou nezávislé stejně rozdělené náhodné veličiny reálné náhodné proměnné se stejnou distribuční funkcí Šablona:Math. Empirická distribuční funkce je pak definována vzorcemŠablona:Sfn[2]

F^n(t)=ntn=1ni=1nχXit,

kde nt je počet prvků, které mají hodnotu zvoleného znaku menší nebo rovnou t, χA je charakteristická funkce události Šablona:Math. Pro pevné Šablona:Math je indikátor χXit náhodná proměnná s Bernoulliho rozdělením s parametrem Šablona:Math; tedy nF^n(t) je binomická náhodná proměnná se střední hodnotou Šablona:Math a rozptylem Šablona:Math. Z toho plyne, že F^n(t) je nevychýlený odhad funkce Šablona:Math.

Někteří autoři používají v čitateli zlomku hodnotu n+1:Šablona:SfnŠablona:Sfn

F^n(t)=1n+1i=1nχXit

Střední hodnota

Střední hodnota empirického rozdělení je nestranný odhad střední hodnoty rozdělení populace

En(X)=1n(i=1nxi)

která se častěji označuje x¯.

Rozptyl

Rozptyl empirického rozdělení znásobený nn1 je nestranný odhad rozptylu rozdělení populace

Var(X)=E[(XE[X])2]=E[(Xx¯)2]=1n(i=1n(xix¯)2)

Střední kvadratická chyba

Střední kvadratická chyba empirického rozdělení je

MSE=1ni=1n(YiYi^)2=Varθ^(θ^)+Bias(θ^,θ)2

kde θ^ je odhad a θ neznámý parametr

Kvantily

Pokud nq není celé číslo, pak q-tý kvantil je jednoznačný a jen roven x(nq)

kde a je horní celá část čísla a (nejmenší celé číslo větší nebo rovné a).

Pokud nq je celé číslo, pak q-tý kvantil není jednoznačný a jeho hodnota může být jakékoli reálné číslo x vyhovující nerovnosti

x(nq)<x<x(nq+1)

Empirický medián

Pokud n je liché, pak empirický medián je číslo

x~=x(n/2);

pokud n je sudé, pak empirický medián je číslo

x~=xn/2+xn/2+12

Asymptotické vlastnosti

Protože poměr Šablona:Math se pro Šablona:Math jdoucí k nekonečnu blíží k 1, asymptotické vlastnosti z obou výše uvedených definic jsou stejné.

Podle zákona velkých čísel odhad F^n(t) konverguje k Šablona:Math pro Šablona:Math skoro jistě pro každou hodnotu Šablona:Math:Šablona:Sfn

F^n(t) s.j. F(t);

Odhad F^n(t) je tedy konzistentní. Tento výraz vyjadřuje bodovou konvergenci empirické distribuční funkce ke skutečné distribuční funkci. Silnější tvrzení poskytuje Glivenkova–Cantelliho věta, která říká, že konvergence je stejnoměrná přes Šablona:Math:Šablona:Sfn

F^nFsupt|F^n(t)F(t)| s.j. 0.

Suprémová norma v tomto výrazu se nazývá Kolmogorovova–Smirnovova statistika pro testování, jak dobře empirické rozdělení F^n(t) vyhovuje předpokládané skutečné distribuční funkci Šablona:Math. Mohou být použity i jiné normy, například L2-norma, která dává Cramérovu–von Misesovu statistiku.

Asymptotická rozdělení lze dále charakterizovat několika různými způsoby:

Centrální limitní věta, říká, že bodověF^n(t) asymptoticky normální rozdělení se standardní n rychlostí konvergence:Šablona:Sfn

n(F^n(t)F(t))  d  𝒩(0,F(t)(1F(t))).

Tento výsledek rozšiřuje Donskerova věta, která říká, že pokud empirický proces n(F^nF) považujeme za třídu funkcí indexovaných reálným číslem t, konverguje v rozdělení ve Skorochodově prostoru D,+ ke gaussovskému procesu se střední hodnotou nula GF=BF, kde Šablona:Math je standardní Brownův můstek.Šablona:Sfn Kovarianční struktura tohoto gaussovského procesu je

EGF(t1)GF(t2)=F(t1t2)F(t1)F(t2).

Rovnoměrnou konvergenci v Donskerově větě lze kvantifikovat výsledkem známým jako maďarské vnoření:Šablona:Sfn

lim supnnln2nn(F^nF)GF,n<,s.j.

Rychlost konvergence výrazu n(F^nF) lze také kvantifikovat asymptotickým chováním suprémové normy tohoto výrazu. V této oblasti existují další výsledky, například Dvoretzkého–Kieferova–Wolfowitzova nerovnost poskytuje meze tail probabilities of nF^nF:Šablona:Sfn

Pr(nF^nF>z)2e2z2.

Kolmogorov ukázal, že pokud je distribuční funkce Šablona:Math spojitá, pak výraz nF^nF konverguje v rozdělení k B, který má Kolmogorovovo–Smirnovovo rozdělení, které nezávisí na tvaru funkce Šablona:Math.

Ze zákona opakovaného logaritmu plyne další výsledekŠablona:Sfn

lim supnnF^nF2lnlnn12,s.j.

a

lim infn2nlnlnnF^nF=π2,s.j.

Intervaly spolehlivosti

Empirická distribuční funkce, distribuční funkce a intervaly spolehlivosti grafická znázornění pro různé velikosti vzorku normálního rozdělení

Podle Dvoretzkého–Kieferovy–Wolfowitzovy nerovnosti lze interval, který obsahuje skutečnou distribuční funkci F(x) s pravděpodobností 1α, zapsat

Grafické znázornění empirické distribuční funkce, distribuční funkce a intervalu spolehlivosti pro různé velikosti vzorku Cauchyho rozdělení
Fn(x)εF(x)Fn(x)+ε kde ε=ln2α2n.

Podle výše uvedených mezí můžeme graficky znázornit empirickou distribuční funkci, distribuční funkci a intervaly spolehlivosti pro různé distribuce pomocí libovolné statistické implementace. Následuje syntax z StatsmodelŠablona:Nedostupný zdroj pro grafické znázornění empirického rozdělení.

Grafické znázornění empirické distribuční funkce, distribuční funkce a intervalu spolehlivosti pro vzorky různé velikosti trojúhelníkového rozdělení

Statistické implementace

K softwarovým implementacím empirické distribuční funkce patří:

  • V programovacím jazyce R lze počítat empirické distribuční funkce, k dispozici je několik metod pro grafické znázornění a tisk a výpočty empirických distribučních funkcí.
  • V Mathworks lze použít vykreslení grafu empirické distribuční funkce (cdf)
  • jmp ze SAS obsahuje CDF plot, který vytváří graf empirické distribuční funkce
  • Minitab, vytváří empirické distribuční funkce
  • Mathwave Šablona:Wayback umožňuje napasovat rozdělení pravděpodobnosti na data
  • Dataplot, umožňuje vykreslit graf empirické distribuční funkce
  • Scipy Šablona:Wayback, pomocí scipy.stats umožňuje vykreslit graf rozdělení
  • Statsmodels, umožňuje použití statsmodels.distributions.empirical_distribution.ECDF
  • Matplotlib, umožňuje použití histogramů pro vytvoření grafu kumulativního rozdělení
  • Seaborn obsahuje funkci seaborn.ecdfplot
  • Plotly, lze použít funkci plotly.express.ecdf
  • Excel umožňuje vykreslit graf empirické distribuční funkce

Odkazy

Reference

Šablona:Překlad

Literatura

Související články

Externí odkazy

Šablona:Autoritní data

Šablona:Portály