Koeficient determinace

Z testwiki
Skočit na navigaci Skočit na vyhledávání
Graf dvou regresních přímek s vysokým a nižším koeficientem determinace

Koeficient determinace, běžně označovaný 𝑅2 („R kvadrát“), je v matematické statistice míra kvality regresního modelu, která ve své základní podobě vyjadřuje, jaký podíl variability závisle proměnné model vysvětluje. Koeficient determinace může nabývat hodnoty maximálně 1 (nebo vyjádřeno v procentech 100 %), což znamená dokonalou predikci hodnot závisle proměnné. Naopak hodnota 0 (resp. 0 %) znamená, že model nepřináší pro poznání závisle proměnné žádnou informaci, je zcela neužitečný.

Koeficient determinace lineárního regresního modelu se obvykle definuje jako jedna minus podíl rozptylu chyb (tj. rozdílů mezi predikcemi modelu a skutečnými hodnotami nezávisle proměnné) a rozptylu nezávisle proměnné. To vede na definiční rovnici

𝑅21SSresSStot=1\nolimits (yiy^i)2\nolimits (yiy)2=\nolimits (y^iy)2\nolimits (yiy)2,

kde SSres je suma čtverců chyb (residuí), SStot suma kvadratických odchylek závisle proměnné y od její střední hodnoty y a y^i je regresní odhad i-tého pozorování. Koeficient determinace má za těchto okolností zároveň význam čtverce Pearsonova korelačního koeficientu mezi pozorovanými a modelem odhadnutými hodnotami závisle proměnné.

Koeficient determinace má tendenci růst s počtem nezávisle proměnných v regresním modelu, i když tyto přidávané proměnné nenesou žádnou novou informaci o závisle proměnné. Aby se tomuto umělému nárůstu 𝑅2předešlo, navrhl Henri Theil adjustovaný koeficient determinace R¯2, který opravuje odhadovanou inflaci původního koeficientu determinace a počítá se podle vzorce

R¯2=1(1R2)n1np1,

kde n je počet pozorování v souboru a p počet proměnných v modelu. R¯2 může vyjít i menší než nula. Postupů pro adjustaci koeficientu determinace je nicméně velké množství, určených pro různé druhy zobecnění kvality predikce.[1][2]

Reference

Externí odkazy

Šablona:Autoritní data Šablona:Portály